X-MuTeST: un benchmark multilingue per il rilevamento spiegabile dell'odio online e un nuovo framework di spiegazione consultato da LLM
X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework
January 6, 2026
Autori: Mohammad Zia Ur Rehman, Sai Kartheek Reddy Kasu, Shashivardhan Reddy Koppula, Sai Rithwik Reddy Chirra, Shwetank Shekhar Singh, Nagendra Kumar
cs.AI
Abstract
Il rilevamento dell'incitamento all'odio sui social media affronta sfide sia in termini di accuratezza che di spiegabilità, specialmente per le lingue indiane poco esplorate. Proponiamo una nuova metodologia di addestramento guidata dalla spiegabilità, X-MuTeST (eXplainable Multilingual haTe Speech deTection), per il rilevamento dell'incitamento all'odio che combina il ragionamento semantico di alto livello dei modelli linguistici di grandi dimensioni (LLM) con le tecniche tradizionali di potenziamento dell'attenzione. Estendiamo questa ricerca all'hindi e al telugu insieme all'inglese fornendo benchmark con razionali annotati manualmente per ogni parola per giustificare l'etichetta di classe assegnata. Il metodo di spiegabilità X-MuTeST calcola la differenza tra le probabilità di predizione del testo originale e quelle di unigrammi, bigrammi e trigrammi. Le spiegazioni finali sono calcolate come l'unione tra le spiegazioni degli LLM e le spiegazioni di X-MuTeST. Dimostriamo che l'utilizzo di razionali umani durante l'addestramento migliora sia le prestazioni di classificazione che la spiegabilità. Inoltre, combinare i razionali umani con il nostro metodo di spiegabilità per affinare l'attenzione del modello produce ulteriori miglioramenti. Valutiamo la spiegabilità utilizzando metriche di Plausibilità come Token-F1 e IOU-F1 e metriche di Fedeltà come Completezza e Sufficienza. Concentrandoci su lingue con risorse limitate, il nostro lavoro avanza il rilevamento dell'incitamento all'odio in contesti linguistici diversificati. Il nostro dataset include annotazioni di razionale a livello di token per 6.004 campioni in hindi, 4.492 in telugu e 6.334 in inglese. Dati e codice sono disponibili su https://github.com/ziarehman30/X-MuTeST.
English
Hate speech detection on social media faces challenges in both accuracy and explainability, especially for underexplored Indic languages. We propose a novel explainability-guided training framework, X-MuTeST (eXplainable Multilingual haTe Speech deTection), for hate speech detection that combines high-level semantic reasoning from large language models (LLMs) with traditional attention-enhancing techniques. We extend this research to Hindi and Telugu alongside English by providing benchmark human-annotated rationales for each word to justify the assigned class label. The X-MuTeST explainability method computes the difference between the prediction probabilities of the original text and those of unigrams, bigrams, and trigrams. Final explanations are computed as the union between LLM explanations and X-MuTeST explanations. We show that leveraging human rationales during training enhances both classification performance and explainability. Moreover, combining human rationales with our explainability method to refine the model attention yields further improvements. We evaluate explainability using Plausibility metrics such as Token-F1 and IOU-F1 and Faithfulness metrics such as Comprehensiveness and Sufficiency. By focusing on under-resourced languages, our work advances hate speech detection across diverse linguistic contexts. Our dataset includes token-level rationale annotations for 6,004 Hindi, 4,492 Telugu, and 6,334 English samples. Data and code are available on https://github.com/ziarehman30/X-MuTeST