HateMirage: 가짜 증오와 미묘한 온라인 학대 해석을 위한 설명 가능한 다차원 데이터셋
HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse
March 3, 2026
저자: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya, Md. Shad Akhtar
cs.AI
초록
온라인 안전 연구에서 미묘하고 간접적인 증오 표현은 여전히 충분히 탐구되지 않은 과제로 남아 있으며, 특히 유해한 의도가 오해를 불러일으키거나 조작된 서사에 내포된 경우 더욱 그러합니다. 기존 증오 표현 데이터셋은 주로 노골적인 독성을 포착할 뿐, 허위정보가 증오를 선동하거나 정상화하는 미묘한 방식을 제대로 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 가짜 또는 왜곡된 서사에서 비롯된 증오에 대한 추론 및 설명 가능성 연구를 발전시키기 위해 설계된 'Faux Hate' 댓글의 새로운 데이터셋인 HateMirage를 소개합니다. 이 데이터셋은 팩트체크 출처에서 널리 반박된 허위정보 주장을 식별하고 관련 YouTube 논의를 추적하여 구성되었으며, 총 4,530개의 사용자 댓글로 구성됩니다. 각 댓글은 이해 가능한 세 가지 차원, 즉 대상(누가 영향을 받는가), 의도(댓글 뒤에 숨은 동기나 목표), 함의(잠재적 사회적 영향)에 따라 주석이 달려 있습니다. 토큰 수준 또는 단일 차원의 추론을 제공하는 HateXplain 및 HARE와 같은 기존 설명 가능성 데이터셋과 달리, HateMirage는 허위정보, 피해, 사회적 결과 간의 상호작용을 포착하는 다차원 설명 프레임워크를 도입합니다. 우리는 설명의 일관성을 평가하기 위해 ROUGE-L F1 및 Sentence-BERT 유사도를 사용하여 HateMirage에 대해 여러 오픈소스 언어 모델의 벤치마크를 수행했습니다. 결과에 따르면 설명의 질은 모델 규모 자체보다 사전 학습 데이터의 다양성과 추론 지향 데이터에 더 크게 의존할 수 있음을 시사합니다. 허위정보 추론과 피해 귀인을 결합함으로써, HateMirage는 해석 가능한 증오 탐지 및 책임 있는 AI 연구를 위한 새로운 벤치마크를 확립합니다.
English
Subtle and indirect hate speech remains an underexplored challenge in online safety research, particularly when harmful intent is embedded within misleading or manipulative narratives. Existing hate speech datasets primarily capture overt toxicity, underrepresenting the nuanced ways misinformation can incite or normalize hate. To address this gap, we present HateMirage, a novel dataset of Faux Hate comments designed to advance reasoning and explainability research on hate emerging from fake or distorted narratives. The dataset was constructed by identifying widely debunked misinformation claims from fact-checking sources and tracing related YouTube discussions, resulting in 4,530 user comments. Each comment is annotated along three interpretable dimensions: Target (who is affected), Intent (the underlying motivation or goal behind the comment), and Implication (its potential social impact). Unlike prior explainability datasets such as HateXplain and HARE, which offer token-level or single-dimensional reasoning, HateMirage introduces a multi-dimensional explanation framework that captures the interplay between misinformation, harm, and social consequence. We benchmark multiple open-source language models on HateMirage using ROUGE-L F1 and Sentence-BERT similarity to assess explanation coherence. Results suggest that explanation quality may depend more on pretraining diversity and reasoning-oriented data rather than on model scale alone. By coupling misinformation reasoning with harm attribution, HateMirage establishes a new benchmark for interpretable hate detection and responsible AI research.