HateMirage: Ein erklärbares mehrdimensionales Datenset zur Entschlüsselung vorgetäusster Hassrede und subtilen Online-Missbrauchs

Zusammenfassung

Subtile und indirekte Hassrede bleibt eine wenig erforschte Herausforderung in der Online-Sicherheitsforschung, insbesondere wenn schädliche Absichten in irreführende oder manipulative Narrative eingebettet sind. Bestehende Hassrede-Datensätze erfassen primär offene Toxizität und bilden die nuancierten Wege, auf denen Desinformation Hass schüren oder normalisieren kann, unzureichend ab. Um diese Lücke zu schließen, stellen wir HateMirage vor, einen neuartigen Datensatz von Faux-Hass-Kommentaren, der dazu dienen soll, die Forschung zu Begründbarkeit und Erklärbarkeit von Hass, der aus falschen oder verzerrten Narrativen entsteht, voranzutreiben. Der Datensatz wurde erstellt, indem weitläufig widerlegte Falschbehauptungen aus Faktenprüfungsquellen identifiziert und damit verbundene YouTube-Diskussionen nachverfolgt wurden, was zu 4.530 Nutzerkommentaren führte. Jeder Kommentar ist entlang drei interpretierbarer Dimensionen annotiert: Zielgruppe (wer betroffen ist), Absicht (die zugrundeliegende Motivation oder das Ziel des Kommentars) und Implikation (seine potenzielle gesellschaftliche Auswirkung). Im Gegensatz zu früheren Erklärbarkeits-Datensätzen wie HateXplain und HARE, die token-basierte oder eindimensionale Begründungen bieten, führt HateMirage einen mehrdimensionalen Erklärungsrahmen ein, der das Zusammenspiel von Desinformation, Schaden und gesellschaftlicher Konsequenz erfasst. Wir evaluieren mehrere Open-Source-Sprachmodelle auf HateMirage mittels ROUGE-L F1 und Sentence-BERT-Ähnlichkeit, um die Kohärenz der Erklärungen zu bewerten. Die Ergebnisse deuten darauf hin, dass die Erklärungsqualität möglicherweise stärker von der Vielfalt des Vortrainings und reasoning-orientierten Daten abhängt als allein von der Modellgröße. Indem HateMirage Desinformations-Begründung mit Schadensattribution verbindet, setzt es einen neuen Maßstab für interpretierbare Hasserkennung und verantwortungsvolle KI-Forschung.

English

Subtle and indirect hate speech remains an underexplored challenge in online safety research, particularly when harmful intent is embedded within misleading or manipulative narratives. Existing hate speech datasets primarily capture overt toxicity, underrepresenting the nuanced ways misinformation can incite or normalize hate. To address this gap, we present HateMirage, a novel dataset of Faux Hate comments designed to advance reasoning and explainability research on hate emerging from fake or distorted narratives. The dataset was constructed by identifying widely debunked misinformation claims from fact-checking sources and tracing related YouTube discussions, resulting in 4,530 user comments. Each comment is annotated along three interpretable dimensions: Target (who is affected), Intent (the underlying motivation or goal behind the comment), and Implication (its potential social impact). Unlike prior explainability datasets such as HateXplain and HARE, which offer token-level or single-dimensional reasoning, HateMirage introduces a multi-dimensional explanation framework that captures the interplay between misinformation, harm, and social consequence. We benchmark multiple open-source language models on HateMirage using ROUGE-L F1 and Sentence-BERT similarity to assess explanation coherence. Results suggest that explanation quality may depend more on pretraining diversity and reasoning-oriented data rather than on model scale alone. By coupling misinformation reasoning with harm attribution, HateMirage establishes a new benchmark for interpretable hate detection and responsible AI research.

HateMirage: Ein erklärbares mehrdimensionales Datenset zur Entschlüsselung vorgetäusster Hassrede und subtilen Online-Missbrauchs

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Zusammenfassung

Support