ChatPaper.aiChatPaper

X-MuTeST: Een meertalige benchmark voor verklaarbare haatspraakdetectie en een nieuw raamwerk voor uitleg met consultatie van grote taalmodellen

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

January 6, 2026
Auteurs: Mohammad Zia Ur Rehman, Sai Kartheek Reddy Kasu, Shashivardhan Reddy Koppula, Sai Rithwik Reddy Chirra, Shwetank Shekhar Singh, Nagendra Kumar
cs.AI

Samenvatting

De detectie van haatspraak op sociale media kampt met uitdagingen op het gebied van zowel nauwkeurigheid als uitlegbaarheid, vooral voor minder onderzochte Indische talen. Wij stellen een nieuw uitlegbaarheids-gestuurd trainingsraamwerk voor, X-MuTeST (eXplainable Multilingual haTe Speech deTection), voor haatspraakdetectie dat semantische redeneervaardigheden op hoog niveau van grote taalmmodellen (LLM's) combineert met traditionele technieken om aandacht te verbeteren. We breiden dit onderzoek uit naar Hindi en Telugu, naast Engels, door voor elk woord benchmark-rationelen, geannoteerd door mensen, te verschaffen die het toegekende klasselabel rechtvaardigen. De X-MuTeST-uitlegbaarheidsmethode berekent het verschil tussen de voorspellingskansen van de originele tekst en die van unigrammen, bigrammen en trigrammen. De uiteindelijke verklaringen worden berekend als de vereniging van LLM-verklaringen en X-MuTeST-verklaringen. Wij tonen aan dat het benutten van menselijke rationelen tijdens de training zowel de classificatieprestatie als de uitlegbaarheid verbetert. Bovendien leidt het combineren van menselijke rationelen met onze uitlegbaarheidsmethode om de modelaandacht te verfijnen tot verdere verbeteringen. We evalueren de uitlegbaarheid met plausibiliteitsmaten zoals Token-F1 en IOU-F1, en betrouwbaarheidsmaten zoals Volledigheid en Toereikendheid. Door ons te richten op talen met minder middelen, bevordert ons werk de detectie van haatspraak in diverse linguïstische contexten. Onze dataset bevat token-level rationale annotaties voor 6.004 Hindi-, 4.492 Telugu- en 6.334 Engelstalige samples. Data en code zijn beschikbaar op https://github.com/ziarehman30/X-MuTeST.
English
Hate speech detection on social media faces challenges in both accuracy and explainability, especially for underexplored Indic languages. We propose a novel explainability-guided training framework, X-MuTeST (eXplainable Multilingual haTe Speech deTection), for hate speech detection that combines high-level semantic reasoning from large language models (LLMs) with traditional attention-enhancing techniques. We extend this research to Hindi and Telugu alongside English by providing benchmark human-annotated rationales for each word to justify the assigned class label. The X-MuTeST explainability method computes the difference between the prediction probabilities of the original text and those of unigrams, bigrams, and trigrams. Final explanations are computed as the union between LLM explanations and X-MuTeST explanations. We show that leveraging human rationales during training enhances both classification performance and explainability. Moreover, combining human rationales with our explainability method to refine the model attention yields further improvements. We evaluate explainability using Plausibility metrics such as Token-F1 and IOU-F1 and Faithfulness metrics such as Comprehensiveness and Sufficiency. By focusing on under-resourced languages, our work advances hate speech detection across diverse linguistic contexts. Our dataset includes token-level rationale annotations for 6,004 Hindi, 4,492 Telugu, and 6,334 English samples. Data and code are available on https://github.com/ziarehman30/X-MuTeST
PDF11January 8, 2026