IRIS Kolloquium | Analysis of behavior patterns of LLMs

22. Januar 2025, 14:00 Uhr

Internes Kolloquium
Esra Dönmez, IRIS3D-Forscherin, präsentiert ihre Forschung innerhalb der Diversity-Aware NLP Intelligent Systems (DANIS)-Gruppe.

Zeit: 22. Januar 2025, 14:00 – 15:00 Uhr
Veranstaltungssprache: englisch
Modus (Ort): in Präsenz
Download als iCal:

Beleidigende Sprache ist auf Online-Plattformen weit verbreitet. Da sie mit Online-Daten trainiert werden, zeigen große Sprachmodelle (LLMs) unerwünschte Verhaltensweisen, wie das Erzeugen von schädlichem Text oder das Versäumen, diesen zu erkennen. Trotz der potenziellen Schäden durch LLMs in solchen Anwendungen sind die Fragen, ob LLMs beleidigende Sprache zuverlässig identifizieren können und wie sie sich verhalten, wenn sie scheitern, noch offen. In dieser Arbeit haben wir sechzehn weit verbreitete LLMs untersucht und gezeigt, dass die meisten die Identifizierung von (nicht-)beleidigender Online-Sprache nicht schaffen. Unsere Experimente enthüllen unerwünschte Verhaltensmuster im Kontext der Erkennung beleidigender Sprache, wie fehlerhafte Antwortgenerierung, übermäßige Abhängigkeit von Schimpfwörtern und das Versäumen, Stereotypen zu erkennen.

Das Wort Kolloquium vor beigem Hintergrund und blauen Wellen.
[Bild: © SRF IRIS]

In unregelmäßigen Abständen verschicken wir einen Newsletter mit Informationen zu IRIS-Veranstaltungen. Damit Sie nichts verpassen, tragen Sie einfach Ihre E-Mail-Adresse ein. Sie erhalten in Kürze eine Bestätigungs-E-Mail, um sicherzugehen, dass Sie wirklich derjenige sind, der den Newsletter abonnieren möchte. Nach Erhalt dieser Bestätigung werden Sie in die Mailingliste aufgenommen. Es handelt sich um eine versteckte Mailingliste, d. h. die Abonnentenliste ist nur für den Administrator einsehbar.

Hinweis: Ohne Angabe der E-Mail-Adresse ist eine Bearbeitung Ihrer Anmeldung zum Newsletter nicht möglich. Ihre Angabe ist freiwillig und Sie können sich jederzeit vom Bezug des Newsletters wieder abmelden.

Newsletter-Anmelde-Seite

Vergangene Veranstaltungen


Januar 2025

November 2024

Oktober 2024

Juli 2024

Juni 2024

Mai 2024

März 2024

Februar 2024

Januar 2024

Dezember 2023

November 2023

Oktober 2023

September 2023

Juli 2023

Juni 2023

Mai 2023

April 2023

März 2023

Februar 2023

Januar 2023

Dezember 2022

November 2022

Oktober 2022

Juli 2022

Juni 2022

Mai 2022

April 2022

Februar 2022

Januar 2022

Dezember 2021

November 2021

Oktober 2021

September 2021

Juli 2021

Zum Seitenanfang