ChatPaper.aiChatPaper

ModelCitizens: 온라인 안전에서 커뮤니티 목소리를 대표하기

ModelCitizens: Representing Community Voices in Online Safety

July 7, 2025
저자: Ashima Suvarna, Christina Chance, Karolina Naranjo, Hamid Palangi, Sophie Hao, Thomas Hartvigsen, Saadia Gabriel
cs.AI

초록

자동 유해 언어 탐지는 안전하고 포용적인 온라인 공간을 조성하는 데 있어 매우 중요합니다. 그러나 이는 매우 주관적인 작업으로, 유해 언어에 대한 인식은 커뮤니티 규범과 개인 경험에 따라 달라집니다. 기존의 유해성 탐지 모델은 일반적으로 다양한 주석자의 관점을 단일한 기준으로 축소한 주석 데이터로 학습되어, 재활용된 언어와 같은 중요한 맥락적 유해성 개념을 무시하는 경향이 있습니다. 이를 해결하기 위해, 우리는 다양한 정체성 그룹에 걸친 6.8K개의 소셜 미디어 게시물과 40K개의 유해성 주석으로 구성된 MODELCITIZENS 데이터셋을 소개합니다. 소셜 미디어 게시물에서 흔히 나타나는 대화적 맥락의 역할을 포착하기 위해, 우리는 MODELCITIZENS 게시물에 LLM(대형 언어 모델)이 생성한 대화 시나리오를 추가했습니다. 최첨단 유해성 탐지 도구(예: OpenAI Moderation API, GPT-o4-mini)는 MODELCITIZENS에서 성능이 저조하며, 맥락이 추가된 게시물에서는 더욱 성능이 저하됩니다. 마지막으로, 우리는 MODELCITIZENS로 미세 조정된 LLaMA 기반의 LLAMACITIZEN-8B와 Gemma 기반의 GEMMACITIZEN-12B 모델을 공개합니다. 이 모델들은 GPT-o4-mini보다 인-분포 평가에서 5.5% 더 우수한 성능을 보입니다. 우리의 연구 결과는 포용적인 콘텐츠 조정을 위해 커뮤니티 기반 주석 및 모델링의 중요성을 강조합니다. 데이터, 모델 및 코드는 https://github.com/asuvarna31/modelcitizens에서 확인할 수 있습니다.
English
Automatic toxic language detection is critical for creating safe, inclusive online spaces. However, it is a highly subjective task, with perceptions of toxic language shaped by community norms and lived experience. Existing toxicity detection models are typically trained on annotations that collapse diverse annotator perspectives into a single ground truth, erasing important context-specific notions of toxicity such as reclaimed language. To address this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K toxicity annotations across diverse identity groups. To capture the role of conversational context on toxicity, typical of social media posts, we augment MODELCITIZENS posts with LLM-generated conversational scenarios. State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API, GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on context-augmented posts. Finally, we release LLAMACITIZEN-8B and GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS, which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our findings highlight the importance of community-informed annotation and modeling for inclusive content moderation. The data, models and code are available at https://github.com/asuvarna31/modelcitizens.
PDF41July 10, 2025