ChatPaper.aiChatPaper

X-MuTeST: Многоязычный бенчмарк для объяснимого обнаружения языка вражды и новая система генерации объяснений с привлечением больших языковых моделей

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

January 6, 2026
Авторы: Mohammad Zia Ur Rehman, Sai Kartheek Reddy Kasu, Shashivardhan Reddy Koppula, Sai Rithwik Reddy Chirra, Shwetank Shekhar Singh, Nagendra Kumar
cs.AI

Аннотация

Обнаружение языка вражды в социальных сетях сталкивается с проблемами как точности, так и интерпретируемости, особенно для малоизученных индийских языков. Мы предлагаем новую обучающую систему с управляемой интерпретируемостью, X-MuTeST (eXplainable Multilingual haTe Speech deTection), для обнаружения языка вражды, которая сочетает семантическое рассуждение высокого уровня от больших языковых моделей (LLM) с традиционными методами усиления внимания. Мы расширяем это исследование на хинди и телугу наряду с английским, предоставляя эталонные человеко-размеченные обоснования для каждого слова, чтобы оправдать присвоенную метку класса. Метод интерпретируемости X-MuTeST вычисляет разницу между вероятностями предсказания исходного текста и вероятностями униграмм, биграмм и триграмм. Окончательные объяснения вычисляются как объединение объяснений LLM и объяснений X-MuTeST. Мы показываем, что использование человеческих обоснований в процессе обучения улучшает как производительность классификации, так и интерпретируемость. Более того, комбинирование человеческих обоснований с нашим методом интерпретируемости для уточнения внимания модели приводит к дальнейшим улучшениям. Мы оцениваем интерпретируемость с помощью метрик Правдоподобия, таких как Token-F1 и IOU-F1, и метрик Достоверности, таких как Полнота и Достаточность. Сосредоточившись на языках с ограниченными ресурсами, наша работа продвигает обнаружение языка вражды в различных лингвистических контекстах. Наш набор данных включает в себя аннотации обоснований на уровне токенов для 6004 примеров на хинди, 4492 на телугу и 6334 на английском языке. Данные и код доступны по адресу https://github.com/ziarehman30/X-MuTeST.
English
Hate speech detection on social media faces challenges in both accuracy and explainability, especially for underexplored Indic languages. We propose a novel explainability-guided training framework, X-MuTeST (eXplainable Multilingual haTe Speech deTection), for hate speech detection that combines high-level semantic reasoning from large language models (LLMs) with traditional attention-enhancing techniques. We extend this research to Hindi and Telugu alongside English by providing benchmark human-annotated rationales for each word to justify the assigned class label. The X-MuTeST explainability method computes the difference between the prediction probabilities of the original text and those of unigrams, bigrams, and trigrams. Final explanations are computed as the union between LLM explanations and X-MuTeST explanations. We show that leveraging human rationales during training enhances both classification performance and explainability. Moreover, combining human rationales with our explainability method to refine the model attention yields further improvements. We evaluate explainability using Plausibility metrics such as Token-F1 and IOU-F1 and Faithfulness metrics such as Comprehensiveness and Sufficiency. By focusing on under-resourced languages, our work advances hate speech detection across diverse linguistic contexts. Our dataset includes token-level rationale annotations for 6,004 Hindi, 4,492 Telugu, and 6,334 English samples. Data and code are available on https://github.com/ziarehman30/X-MuTeST
PDF11January 8, 2026