X-MuTeST: Un Punto de Referencia Multilingüe para la Detección Explicable del Discurso de Odio y un Nuevo Marco de Explicación Consultado por Modelos de Lenguaje Grandes
X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework
January 6, 2026
Autores: Mohammad Zia Ur Rehman, Sai Kartheek Reddy Kasu, Shashivardhan Reddy Koppula, Sai Rithwik Reddy Chirra, Shwetank Shekhar Singh, Nagendra Kumar
cs.AI
Resumen
La detección de discurso de odio en redes sociales enfrenta desafíos tanto en precisión como en explicabilidad, especialmente para lenguas índicas poco exploradas. Proponemos un novedoso marco de entrenamiento guiado por explicabilidad, X-MuTeST (eXplainable Multilingual haTe Speech deTection), para la detección de discurso de odio que combina el razonamiento semántico de alto nivel de los modelos de lenguaje grandes (LLMs) con técnicas tradicionales de mejora de la atención. Extendemos esta investigación al hindi y al telugu junto con el inglés, proporcionando racionales anotados por humanos como referencia para justificar la etiqueta de clase asignada a cada palabra. El método de explicabilidad X-MuTeST calcula la diferencia entre las probabilidades de predicción del texto original y las de unigramas, bigramas y trigramas. Las explicaciones finales se calculan como la unión entre las explicaciones de los LLMs y las explicaciones de X-MuTeST. Demostramos que aprovechar los racionales humanos durante el entrenamiento mejora tanto el rendimiento de la clasificación como la explicabilidad. Además, combinar los racionales humanos con nuestro método de explicabilidad para refinar la atención del modelo produce mejoras adicionales. Evaluamos la explicabilidad utilizando métricas de Plausibilidad como Token-F1 e IOU-F1, y métricas de Fidelidad como Comprehensiveness y Sufficiency. Al centrarnos en lenguas con menos recursos, nuestro trabajo avanza la detección de discurso de odio en diversos contextos lingüísticos. Nuestro conjunto de datos incluye anotaciones de racionales a nivel de token para 6.004 muestras en hindi, 4.492 en telugu y 6.334 en inglés. Los datos y el código están disponibles en https://github.com/ziarehman30/X-MuTeST.
English
Hate speech detection on social media faces challenges in both accuracy and explainability, especially for underexplored Indic languages. We propose a novel explainability-guided training framework, X-MuTeST (eXplainable Multilingual haTe Speech deTection), for hate speech detection that combines high-level semantic reasoning from large language models (LLMs) with traditional attention-enhancing techniques. We extend this research to Hindi and Telugu alongside English by providing benchmark human-annotated rationales for each word to justify the assigned class label. The X-MuTeST explainability method computes the difference between the prediction probabilities of the original text and those of unigrams, bigrams, and trigrams. Final explanations are computed as the union between LLM explanations and X-MuTeST explanations. We show that leveraging human rationales during training enhances both classification performance and explainability. Moreover, combining human rationales with our explainability method to refine the model attention yields further improvements. We evaluate explainability using Plausibility metrics such as Token-F1 and IOU-F1 and Faithfulness metrics such as Comprehensiveness and Sufficiency. By focusing on under-resourced languages, our work advances hate speech detection across diverse linguistic contexts. Our dataset includes token-level rationale annotations for 6,004 Hindi, 4,492 Telugu, and 6,334 English samples. Data and code are available on https://github.com/ziarehman30/X-MuTeST