X-MuTeST: Um Benchmark Multilíngue para Detecção Explicável de Discurso de Ódio e uma Nova Estrutura de Explicação Consultada por LLM

Resumo

A detecção de discurso de ódio nas redes sociais enfrenta desafios tanto em precisão quanto em explicabilidade, especialmente para línguas indianas pouco exploradas. Propomos uma nova estrutura de treinamento guiada por explicabilidade, X-MuTeST (eXplainable Multilingual haTe Speech deTection), para detecção de discurso de ódio que combina o raciocínio semântico de alto nível de modelos de linguagem grandes (LLMs) com técnicas tradicionais de aprimoramento de atenção. Estendemos esta pesquisa para o hindi e o telugu, além do inglês, fornecendo justificativas anotadas humanas de referência para cada palavra, a fim de justificar o rótulo de classe atribuído. O método de explicabilidade do X-MuTeST calcula a diferença entre as probabilidades de predição do texto original e aquelas de unigramas, bigramas e trigramas. As explicações finais são calculadas como a união entre as explicações dos LLMs e as explicações do X-MuTeST. Mostramos que aproveitar justificativas humanas durante o treinamento melhora tanto o desempenho da classificação quanto a explicabilidade. Além disso, combinar justificativas humanas com nosso método de explicabilidade para refinar a atenção do modelo produz melhorias adicionais. Avaliamos a explicabilidade usando métricas de Plausibilidade, como Token-F1 e IOU-F1, e métricas de Fidedignidade, como Abrangência e Suficiência. Ao focar em idiomas com menos recursos, nosso trabalho avança a detecção de discurso de ódio em diversos contextos linguísticos. Nosso conjunto de dados inclui anotações de justificativa em nível de token para 6.004 amostras em hindi, 4.492 em telugu e 6.334 em inglês. Dados e código estão disponíveis em https://github.com/ziarehman30/X-MuTeST.

English

Hate speech detection on social media faces challenges in both accuracy and explainability, especially for underexplored Indic languages. We propose a novel explainability-guided training framework, X-MuTeST (eXplainable Multilingual haTe Speech deTection), for hate speech detection that combines high-level semantic reasoning from large language models (LLMs) with traditional attention-enhancing techniques. We extend this research to Hindi and Telugu alongside English by providing benchmark human-annotated rationales for each word to justify the assigned class label. The X-MuTeST explainability method computes the difference between the prediction probabilities of the original text and those of unigrams, bigrams, and trigrams. Final explanations are computed as the union between LLM explanations and X-MuTeST explanations. We show that leveraging human rationales during training enhances both classification performance and explainability. Moreover, combining human rationales with our explainability method to refine the model attention yields further improvements. We evaluate explainability using Plausibility metrics such as Token-F1 and IOU-F1 and Faithfulness metrics such as Comprehensiveness and Sufficiency. By focusing on under-resourced languages, our work advances hate speech detection across diverse linguistic contexts. Our dataset includes token-level rationale annotations for 6,004 Hindi, 4,492 Telugu, and 6,334 English samples. Data and code are available on https://github.com/ziarehman30/X-MuTeST

X-MuTeST: Um Benchmark Multilíngue para Detecção Explicável de Discurso de Ódio e uma Nova Estrutura de Explicação Consultada por LLM

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

Resumo

Support