Bewertung großer Sprachmodelle zur Erkennung von Antisemitismus
Evaluating Large Language Models for Detecting Antisemitism
September 22, 2025
papers.authors: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
cs.AI
papers.abstract
Die Erkennung von Hassinhalten ist eine herausfordernde und wichtige Aufgabe. Automatisierte Werkzeuge, wie maschinelle Lernmodelle, können dabei helfen, erfordern jedoch kontinuierliches Training, um sich an die sich ständig verändernde Landschaft der sozialen Medien anzupassen. In dieser Arbeit evaluieren wir die Fähigkeit von acht Open-Source-LLMs, antisemitische Inhalte zu erkennen, wobei wir speziell die In-Kontext-Definition als Richtlinie nutzen. Wir untersuchen verschiedene Prompting-Techniken und entwickeln einen neuen CoT-ähnlichen Prompt, Guided-CoT. Guided-CoT verarbeitet die In-Kontext-Richtlinie effektiv und steigert die Leistung aller evaluierten Modelle, unabhängig von der Dekodierungskonfiguration, der Modellgröße oder der Fähigkeit zur logischen Schlussfolgerung. Bemerkenswerterweise übertrifft Llama 3.1 70B das feinabgestimmte GPT-3.5. Zusätzlich untersuchen wir Fehler der LLMs und führen Metriken ein, um die semantische Abweichung in den von den Modellen generierten Begründungen zu quantifizieren, was bemerkenswerte Unterschiede und paradoxe Verhaltensweisen unter den LLMs aufzeigt. Unsere Experimente verdeutlichen die beobachteten Unterschiede in Bezug auf Nutzen, Erklärbarkeit und Zuverlässigkeit der LLMs.
English
Detecting hateful content is a challenging and important problem. Automated
tools, like machine-learning models, can help, but they require continuous
training to adapt to the ever-changing landscape of social media. In this work,
we evaluate eight open-source LLMs' capability to detect antisemitic content,
specifically leveraging in-context definition as a policy guideline. We explore
various prompting techniques and design a new CoT-like prompt, Guided-CoT.
Guided-CoT handles the in-context policy well, increasing performance across
all evaluated models, regardless of decoding configuration, model sizes, or
reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5.
Additionally, we examine LLM errors and introduce metrics to quantify semantic
divergence in model-generated rationales, revealing notable differences and
paradoxical behaviors among LLMs. Our experiments highlight the differences
observed across LLMs' utility, explainability, and reliability.