HateMirage: Um Conjunto de Dados Explicável e Multidimensional para Decodificar o Ódio Falso e o Abuso Sutil Online

Resumo

O discurso de ódio subtil e indireto permanece um desafio pouco explorado na investigação sobre segurança online, particularmente quando a intenção nociva está embutida em narrativas enganosas ou manipuladoras. Os conjuntos de dados existentes sobre discurso de ódio capturam principalmente toxicidade explícita, sub-representando as formas nuances como a desinformação pode incitar ou normalizar o ódio. Para colmatar esta lacuna, apresentamos o HateMirage, um novo conjunto de dados de comentários de Faux Hate (Ódio Falso) concebido para avançar a investigação sobre raciocínio e explicabilidade do ódio emergente de narrativas falsas ou distorcidas. O conjunto de dados foi construído através da identificação de alegações de desinformação amplamente desmascaradas a partir de fontes de verificação de factos e do rastreio de discussões relacionadas no YouTube, resultando em 4.530 comentários de utilizadores. Cada comentário é anotado ao longo de três dimensões interpretáveis: Alvo (quem é afetado), Intenção (a motivação ou objetivo subjacente por trás do comentário) e Implicação (o seu potencial impacto social). Ao contrário de conjuntos de dados de explicabilidade anteriores, como o HateXplain e o HARE, que oferecem raciocínio a nível de token ou unidimensional, o HateMirage introduz uma estrutura de explicação multidimensional que capta a interação entre desinformação, dano e consequência social. Avaliamos vários modelos de linguagem de código aberto no HateMirage usando a similaridade ROUGE-L F1 e Sentence-BERT para avaliar a coerência das explicações. Os resultados sugerem que a qualidade da explicação pode depender mais da diversidade do pré-treinamento e de dados orientados para o raciocínio do que apenas da escala do modelo. Ao associar o raciocínio sobre desinformação com a atribuição de dano, o HateMirage estabelece um novo referência para a deteção de ódio interpretável e a investigação em IA responsável.

English

Subtle and indirect hate speech remains an underexplored challenge in online safety research, particularly when harmful intent is embedded within misleading or manipulative narratives. Existing hate speech datasets primarily capture overt toxicity, underrepresenting the nuanced ways misinformation can incite or normalize hate. To address this gap, we present HateMirage, a novel dataset of Faux Hate comments designed to advance reasoning and explainability research on hate emerging from fake or distorted narratives. The dataset was constructed by identifying widely debunked misinformation claims from fact-checking sources and tracing related YouTube discussions, resulting in 4,530 user comments. Each comment is annotated along three interpretable dimensions: Target (who is affected), Intent (the underlying motivation or goal behind the comment), and Implication (its potential social impact). Unlike prior explainability datasets such as HateXplain and HARE, which offer token-level or single-dimensional reasoning, HateMirage introduces a multi-dimensional explanation framework that captures the interplay between misinformation, harm, and social consequence. We benchmark multiple open-source language models on HateMirage using ROUGE-L F1 and Sentence-BERT similarity to assess explanation coherence. Results suggest that explanation quality may depend more on pretraining diversity and reasoning-oriented data rather than on model scale alone. By coupling misinformation reasoning with harm attribution, HateMirage establishes a new benchmark for interpretable hate detection and responsible AI research.

HateMirage: Um Conjunto de Dados Explicável e Multidimensional para Decodificar o Ódio Falso e o Abuso Sutil Online

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Resumo

Support