Zeit: | 22. Januar 2025, 14:00 – 15:00 Uhr |
---|---|
Veranstaltungssprache: | englisch |
Modus (Ort): | in Präsenz |
Download als iCal: |
|
Beleidigende Sprache ist auf Online-Plattformen weit verbreitet. Da sie mit Online-Daten trainiert werden, zeigen große Sprachmodelle (LLMs) unerwünschte Verhaltensweisen, wie das Erzeugen von schädlichem Text oder das Versäumen, diesen zu erkennen. Trotz der potenziellen Schäden durch LLMs in solchen Anwendungen sind die Fragen, ob LLMs beleidigende Sprache zuverlässig identifizieren können und wie sie sich verhalten, wenn sie scheitern, noch offen. In dieser Arbeit haben wir sechzehn weit verbreitete LLMs untersucht und gezeigt, dass die meisten die Identifizierung von (nicht-)beleidigender Online-Sprache nicht schaffen. Unsere Experimente enthüllen unerwünschte Verhaltensmuster im Kontext der Erkennung beleidigender Sprache, wie fehlerhafte Antwortgenerierung, übermäßige Abhängigkeit von Schimpfwörtern und das Versäumen, Stereotypen zu erkennen.
In unregelmäßigen Abständen verschicken wir einen Newsletter mit Informationen zu IRIS-Veranstaltungen. Damit Sie nichts verpassen, tragen Sie einfach Ihre E-Mail-Adresse ein. Sie erhalten in Kürze eine Bestätigungs-E-Mail, um sicherzugehen, dass Sie wirklich derjenige sind, der den Newsletter abonnieren möchte. Nach Erhalt dieser Bestätigung werden Sie in die Mailingliste aufgenommen. Es handelt sich um eine versteckte Mailingliste, d. h. die Abonnentenliste ist nur für den Administrator einsehbar.
Hinweis: Ohne Angabe der E-Mail-Adresse ist eine Bearbeitung Ihrer Anmeldung zum Newsletter nicht möglich. Ihre Angabe ist freiwillig und Sie können sich jederzeit vom Bezug des Newsletters wieder abmelden.