ChatPaper.aiChatPaper

X-MuTeST: Eine mehrsprachige Benchmark für erklärbare Hate-Speech-Erkennung und ein neuartiges, LLM-konsultiertes Erklärungsframework

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

January 6, 2026
papers.authors: Mohammad Zia Ur Rehman, Sai Kartheek Reddy Kasu, Shashivardhan Reddy Koppula, Sai Rithwik Reddy Chirra, Shwetank Shekhar Singh, Nagendra Kumar
cs.AI

papers.abstract

Die Erkennung von Hassrede in sozialen Medien steht vor Herausforderungen in Bezug auf Genauigkeit und Erklärbarkeit, insbesondere für weniger erforschte indische Sprachen. Wir schlagen einen neuartigen, erklärungsbasierten Trainingsansatz vor, X-MuTeST (eXplainable Multilingual haTe Speech deTection), der semantisches Reasoning großer Sprachmodelle (LLMs) mit traditionellen Aufmerksamkeitsverstärkungstechniken kombiniert. Wir erweitern diese Forschung auf Hindi und Telugu neben Englisch, indem wir benchmark-gestützte, menschlich annotierte Rationale für jedes Wort bereitstellen, um die vergebene Klassenbezeichnung zu begründen. Die X-MuTeST-Erklärbarkeitsmethode berechnet die Differenz zwischen den Vorhersagewahrscheinlichkeiten des Originaltextes und denen von Unigrammen, Bigrammen und Trigrammen. Die endgültigen Erklärungen werden als Vereinigung von LLM-Erklärungen und X-MuTeST-Erklärungen berechnet. Wir zeigen, dass die Nutzung menschlicher Rationale während des Trainings sowohl die Klassifikationsleistung als auch die Erklärbarkeit verbessert. Darüber hinaus führt die Kombination menschlicher Rationale mit unserer Erklärbarkeitsmethode zur Verfeinerung der Modellaufmerksamkeit zu weiteren Verbesserungen. Wir bewerten die Erklärbarkeit anhand von Plausibilitätsmetriken wie Token-F1 und IOU-F1 sowie Treue-Metriken wie Umfassendheit und Hinlänglichkeit. Indem wir uns auf unterrepräsentierte Sprachen konzentrieren, fördert unsere Arbeit die Hassrede-Erkennung in verschiedenen linguistischen Kontexten. Unser Datensatz umfasst Token-level Rationale-Annotationen für 6.004 Hindi-, 4.492 Telugu- und 6.334 Englisch-Beispiele. Daten und Code sind verfügbar unter https://github.com/ziarehman30/X-MuTeST.
English
Hate speech detection on social media faces challenges in both accuracy and explainability, especially for underexplored Indic languages. We propose a novel explainability-guided training framework, X-MuTeST (eXplainable Multilingual haTe Speech deTection), for hate speech detection that combines high-level semantic reasoning from large language models (LLMs) with traditional attention-enhancing techniques. We extend this research to Hindi and Telugu alongside English by providing benchmark human-annotated rationales for each word to justify the assigned class label. The X-MuTeST explainability method computes the difference between the prediction probabilities of the original text and those of unigrams, bigrams, and trigrams. Final explanations are computed as the union between LLM explanations and X-MuTeST explanations. We show that leveraging human rationales during training enhances both classification performance and explainability. Moreover, combining human rationales with our explainability method to refine the model attention yields further improvements. We evaluate explainability using Plausibility metrics such as Token-F1 and IOU-F1 and Faithfulness metrics such as Comprehensiveness and Sufficiency. By focusing on under-resourced languages, our work advances hate speech detection across diverse linguistic contexts. Our dataset includes token-level rationale annotations for 6,004 Hindi, 4,492 Telugu, and 6,334 English samples. Data and code are available on https://github.com/ziarehman30/X-MuTeST
PDF11January 8, 2026