ChatPaper.aiChatPaper

X-MuTeST: 설명 가능한 혐오 표현 탐지를 위한 다국어 벤치마크 및 새로운 LLM 기반 설명 프레임워크

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

January 6, 2026
저자: Mohammad Zia Ur Rehman, Sai Kartheek Reddy Kasu, Shashivardhan Reddy Koppula, Sai Rithwik Reddy Chirra, Shwetank Shekhar Singh, Nagendra Kumar
cs.AI

초록

소셜 미디어에서의 혐오 표현 탐지는 정확성과 설명 가능성 측면에서 모두 어려움을 겪고 있으며, 특히 연구가 충분히 이루어지지 않은 인도 언어의 경우 더욱 그렇습니다. 본 연구에서는 대규모 언어 모델(LLM)의 고수준 의미론적 추론과 기존의 주의 메커니즘 향상 기법을 결합한 설명 가능성 주도 훈련 프레임워크인 X-MuTeST(eXplainable Multilingual haTe Speech deTection)를 제안합니다. 우리는 영어와 함께 힌디어와 텔루구어로 연구를 확장하여 각 단어에 대해 할당된 클래스 레이블을 정당화하는 벤치마크 수준의 인간 주석 설명을 제공합니다. X-MuTeST 설명 가능성 방법은 원본 텍스트의 예측 확률과 유니그램, 바이그램, 트라이그램의 예측 확률 간 차이를 계산합니다. 최종 설명은 LLM 설명과 X-MuTeST 설명의 합집합으로 계산됩니다. 우리는 훈련 과정에서 인간의 설명을 활용하면 분류 성능과 설명 가능성이 모두 향상됨을 보여줍니다. 더 나아가, 인간의 설명과 우리의 설명 가능성 방법을 결합하여 모델의 주의 메커니즘을 개선하면 추가적인 성능 향상을 얻을 수 있습니다. 설명 가능성 평가는 Token-F1, IOU-F1과 같은 타당성 지표와 Comprehensiveness, Sufficiency와 같은 충실도 지표를 사용하여 수행합니다. 자원이 부족한 언어에 초점을 맞춤으로써, 우리의 연구는 다양한 언어적 배경에서의 혐오 표현 탐지를 발전시킵니다. 우리의 데이터셋은 힌디어 6,004개, 텔루구어 4,492개, 영어 6,334개 샘플에 대한 토큰 수준의 설명 주석을 포함합니다. 데이터와 코드는 https://github.com/ziarehman30/X-MuTeST에서 이용할 수 있습니다.
English
Hate speech detection on social media faces challenges in both accuracy and explainability, especially for underexplored Indic languages. We propose a novel explainability-guided training framework, X-MuTeST (eXplainable Multilingual haTe Speech deTection), for hate speech detection that combines high-level semantic reasoning from large language models (LLMs) with traditional attention-enhancing techniques. We extend this research to Hindi and Telugu alongside English by providing benchmark human-annotated rationales for each word to justify the assigned class label. The X-MuTeST explainability method computes the difference between the prediction probabilities of the original text and those of unigrams, bigrams, and trigrams. Final explanations are computed as the union between LLM explanations and X-MuTeST explanations. We show that leveraging human rationales during training enhances both classification performance and explainability. Moreover, combining human rationales with our explainability method to refine the model attention yields further improvements. We evaluate explainability using Plausibility metrics such as Token-F1 and IOU-F1 and Faithfulness metrics such as Comprehensiveness and Sufficiency. By focusing on under-resourced languages, our work advances hate speech detection across diverse linguistic contexts. Our dataset includes token-level rationale annotations for 6,004 Hindi, 4,492 Telugu, and 6,334 English samples. Data and code are available on https://github.com/ziarehman30/X-MuTeST
PDF11January 8, 2026