ChatPaper.aiChatPaper

X-MuTeST:説明可能なヘイトスピーチ検出のための多言語ベンチマークと新しいLLM参画型説明フレームワーク

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

January 6, 2026
著者: Mohammad Zia Ur Rehman, Sai Kartheek Reddy Kasu, Shashivardhan Reddy Koppula, Sai Rithwik Reddy Chirra, Shwetank Shekhar Singh, Nagendra Kumar
cs.AI

要旨

ソーシャルメディアにおけるヘイトスピーチ検出は、特に研究が進んでいないインド系言語において、精度と説明可能性の両面で課題に直面している。本研究では、大規模言語モデル(LLM)からの高次セマンティック推論と従来の注意機構強化技術を組み合わせた、説明可能性に基づく新しい学習フレームワーク「X-MuTeST(eXplainable Multilingual haTe Speech deTection)」を提案する。本研究では英語に加えてヒンディー語とテルグ語にも対象を拡大し、割り当てられたクラスラベルを正当化するための単語ごとのベンチマーク人間注釈による理論的根拠を提供する。X-MuTeSTの説明可能性手法は、原文とユニグラム、バイグラム、トリグラムの予測確率の差を計算する。最終的な説明は、LLMによる説明とX-MuTeSTによる説明の和集合として計算される。学習中に人間による理論的根拠を活用することで、分類性能と説明可能性の両方が向上することを示す。さらに、人間による理論的根拠と本説明可能性手法を組み合わせてモデルの注意機構を洗練させることで、さらなる改善が得られる。説明可能性の評価には、Token-F1やIOU-F1などの妥当性指標、およびComprehensivenessやSufficiencyなどの忠実性指標を用いる。リソースの少ない言語に焦点を当てることで、多様な言語環境におけるヘイトスピーチ検出の進展に貢献する。データセットには、ヒンディー語6,004サンプル、テルグ語4,492サンプル、英語6,334サンプルに対するトークンレベルの理論的根拠注釈が含まれる。データとコードはhttps://github.com/ziarehman30/X-MuTeSTで公開している。
English
Hate speech detection on social media faces challenges in both accuracy and explainability, especially for underexplored Indic languages. We propose a novel explainability-guided training framework, X-MuTeST (eXplainable Multilingual haTe Speech deTection), for hate speech detection that combines high-level semantic reasoning from large language models (LLMs) with traditional attention-enhancing techniques. We extend this research to Hindi and Telugu alongside English by providing benchmark human-annotated rationales for each word to justify the assigned class label. The X-MuTeST explainability method computes the difference between the prediction probabilities of the original text and those of unigrams, bigrams, and trigrams. Final explanations are computed as the union between LLM explanations and X-MuTeST explanations. We show that leveraging human rationales during training enhances both classification performance and explainability. Moreover, combining human rationales with our explainability method to refine the model attention yields further improvements. We evaluate explainability using Plausibility metrics such as Token-F1 and IOU-F1 and Faithfulness metrics such as Comprehensiveness and Sufficiency. By focusing on under-resourced languages, our work advances hate speech detection across diverse linguistic contexts. Our dataset includes token-level rationale annotations for 6,004 Hindi, 4,492 Telugu, and 6,334 English samples. Data and code are available on https://github.com/ziarehman30/X-MuTeST
PDF11January 8, 2026