X-MuTeST : Un benchmark multilingue pour la détection explicable des discours haineux et un nouveau cadre d'explication consultatif par LLM
X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework
January 6, 2026
papers.authors: Mohammad Zia Ur Rehman, Sai Kartheek Reddy Kasu, Shashivardhan Reddy Koppula, Sai Rithwik Reddy Chirra, Shwetank Shekhar Singh, Nagendra Kumar
cs.AI
papers.abstract
La détection des discours haineux sur les réseaux sociaux est confrontée à des défis en matière de précision et d’explicabilité, en particulier pour les langues indiennes peu étudiées. Nous proposons un nouveau cadre d’entraînement guidé par l’explicabilité, X-MuTeST (eXplainable Multilingual haTe Speech deTection), pour la détection des discours haineux, qui combine le raisonnement sémantique de haut niveau des grands modèles de langage (LLM) avec des techniques traditionnelles d’amélioration de l’attention. Nous étendons cette recherche à l’hindi et au télougou, en plus de l’anglais, en fournissant des justifications annotées manuellement servant de référence pour chaque mot afin de justifier l’étiquette de classe attribuée. La méthode d’explicabilité X-MuTeST calcule la différence entre les probabilités de prédiction du texte original et celles des unigrammes, bigrammes et trigrammes. Les explications finales sont calculées comme l’union des explications des LLM et des explications X-MuTeST. Nous montrons que l’utilisation de justifications humaines pendant l’entraînement améliore à la fois les performances de classification et l’explicabilité. De plus, combiner les justifications humaines avec notre méthode d’explicabilité pour affiner l’attention du modèle permet d’obtenir des améliorations supplémentaires. Nous évaluons l’explicabilité à l’aide de métriques de plausibilité telles que Token-F1 et IOU-F1, et de métriques de fidélité telles que l’exhaustivité (Comprehensiveness) et la suffisance (Sufficiency). En nous concentrant sur les langues sous-dotées, notre travail fait progresser la détection des discours haineux dans divers contextes linguistiques. Notre jeu de données comprend des annotations de justifications au niveau token pour 6 004 échantillons en hindi, 4 492 en télougou et 6 334 en anglais. Les données et le code sont disponibles sur https://github.com/ziarehman30/X-MuTeST.
English
Hate speech detection on social media faces challenges in both accuracy and explainability, especially for underexplored Indic languages. We propose a novel explainability-guided training framework, X-MuTeST (eXplainable Multilingual haTe Speech deTection), for hate speech detection that combines high-level semantic reasoning from large language models (LLMs) with traditional attention-enhancing techniques. We extend this research to Hindi and Telugu alongside English by providing benchmark human-annotated rationales for each word to justify the assigned class label. The X-MuTeST explainability method computes the difference between the prediction probabilities of the original text and those of unigrams, bigrams, and trigrams. Final explanations are computed as the union between LLM explanations and X-MuTeST explanations. We show that leveraging human rationales during training enhances both classification performance and explainability. Moreover, combining human rationales with our explainability method to refine the model attention yields further improvements. We evaluate explainability using Plausibility metrics such as Token-F1 and IOU-F1 and Faithfulness metrics such as Comprehensiveness and Sufficiency. By focusing on under-resourced languages, our work advances hate speech detection across diverse linguistic contexts. Our dataset includes token-level rationale annotations for 6,004 Hindi, 4,492 Telugu, and 6,334 English samples. Data and code are available on https://github.com/ziarehman30/X-MuTeST