Bewertung großer Sprachmodelle zur Erkennung von Antisemitismus

papers.abstract

Die Erkennung von Hassinhalten ist eine herausfordernde und wichtige Aufgabe. Automatisierte Werkzeuge, wie maschinelle Lernmodelle, können dabei helfen, erfordern jedoch kontinuierliches Training, um sich an die sich ständig verändernde Landschaft der sozialen Medien anzupassen. In dieser Arbeit evaluieren wir die Fähigkeit von acht Open-Source-LLMs, antisemitische Inhalte zu erkennen, wobei wir speziell die In-Kontext-Definition als Richtlinie nutzen. Wir untersuchen verschiedene Prompting-Techniken und entwickeln einen neuen CoT-ähnlichen Prompt, Guided-CoT. Guided-CoT verarbeitet die In-Kontext-Richtlinie effektiv und steigert die Leistung aller evaluierten Modelle, unabhängig von der Dekodierungskonfiguration, der Modellgröße oder der Fähigkeit zur logischen Schlussfolgerung. Bemerkenswerterweise übertrifft Llama 3.1 70B das feinabgestimmte GPT-3.5. Zusätzlich untersuchen wir Fehler der LLMs und führen Metriken ein, um die semantische Abweichung in den von den Modellen generierten Begründungen zu quantifizieren, was bemerkenswerte Unterschiede und paradoxe Verhaltensweisen unter den LLMs aufzeigt. Unsere Experimente verdeutlichen die beobachteten Unterschiede in Bezug auf Nutzen, Erklärbarkeit und Zuverlässigkeit der LLMs.

English

Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.

Bewertung großer Sprachmodelle zur Erkennung von Antisemitismus

Evaluating Large Language Models for Detecting Antisemitism

papers.abstract

Support