HateMirage : Un ensemble de données multidimensionnel explicable pour décoder la haine factice et les abus en ligne subtils

Résumé

Les discours de haine subtils et indirects demeurent un défi sous-exploré dans la recherche sur la sécurité en ligne, particulièrement lorsque l'intention nocive est intégrée dans des récits trompeurs ou manipulateurs. Les ensembles de données existants sur la haine capturent principalement la toxicité manifeste, sous-représentant les façons nuancées dont la désinformation peut inciter à la haine ou la normaliser. Pour combler cette lacune, nous présentons HateMirage, un nouvel ensemble de données de commentaires de « Faux Hate » conçu pour faire progresser la recherche sur le raisonnement et l'explicabilité concernant la haine émergeant de récits faux ou déformés. L'ensemble de données a été construit en identifiant des affirmations de désinformation largement démystifiées auprès de sources de vérification des faits et en retraçant les discussions YouTube associées, ce qui a donné lieu à 4 530 commentaires d'utilisateurs. Chaque commentaire est annoté selon trois dimensions interprétables : la Cible (qui est visé), l'Intention (la motivation ou le but sous-jacent du commentaire) et l'Implication (son impact social potentiel). Contrairement aux ensembles de données d'explicabilité antérieurs tels que HateXplain et HARE, qui offrent un raisonnement au niveau des tokens ou unidimensionnel, HateMirage introduit un cadre d'explication multidimensionnel qui capture l'interaction entre la désinformation, le préjudice et la conséquence sociale. Nous évaluons plusieurs modèles de langage open-source sur HateMirage en utilisant le score F1 ROUGE-L et la similarité Sentence-BERT pour évaluer la cohérence des explications. Les résultats suggèrent que la qualité de l'explication pourrait dépendre davantage de la diversité du pré-entraînement et des données axées sur le raisonnement que de la seule taille du modèle. En associant le raisonnement sur la désinformation à l'attribution du préjudice, HateMirage établit une nouvelle référence pour la détection de la haine interprétable et la recherche en IA responsable.

English

Subtle and indirect hate speech remains an underexplored challenge in online safety research, particularly when harmful intent is embedded within misleading or manipulative narratives. Existing hate speech datasets primarily capture overt toxicity, underrepresenting the nuanced ways misinformation can incite or normalize hate. To address this gap, we present HateMirage, a novel dataset of Faux Hate comments designed to advance reasoning and explainability research on hate emerging from fake or distorted narratives. The dataset was constructed by identifying widely debunked misinformation claims from fact-checking sources and tracing related YouTube discussions, resulting in 4,530 user comments. Each comment is annotated along three interpretable dimensions: Target (who is affected), Intent (the underlying motivation or goal behind the comment), and Implication (its potential social impact). Unlike prior explainability datasets such as HateXplain and HARE, which offer token-level or single-dimensional reasoning, HateMirage introduces a multi-dimensional explanation framework that captures the interplay between misinformation, harm, and social consequence. We benchmark multiple open-source language models on HateMirage using ROUGE-L F1 and Sentence-BERT similarity to assess explanation coherence. Results suggest that explanation quality may depend more on pretraining diversity and reasoning-oriented data rather than on model scale alone. By coupling misinformation reasoning with harm attribution, HateMirage establishes a new benchmark for interpretable hate detection and responsible AI research.

HateMirage : Un ensemble de données multidimensionnel explicable pour décoder la haine factice et les abus en ligne subtils

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Résumé

Support