ChatPaper.aiChatPaper

ModelCitizens: オンライン安全におけるコミュニティの声を代表する

ModelCitizens: Representing Community Voices in Online Safety

July 7, 2025
著者: Ashima Suvarna, Christina Chance, Karolina Naranjo, Hamid Palangi, Sophie Hao, Thomas Hartvigsen, Saadia Gabriel
cs.AI

要旨

自動的な有害言語検出は、安全で包括的なオンライン空間を構築する上で極めて重要です。しかし、これは非常に主観的なタスクであり、有害言語の認識はコミュニティの規範や個人の経験によって形作られます。既存の有害性検出モデルは、多様なアノテーターの視点を単一の正解に集約したアノテーションで訓練されることが一般的で、取り戻された言語などの文脈固有の有害性の概念が失われています。この問題に対処するため、我々はMODELCITIZENSを紹介します。これは6.8Kのソーシャルメディア投稿と40Kの有害性アノテーションからなるデータセットで、多様なアイデンティティグループをカバーしています。ソーシャルメディア投稿に典型的な会話文脈の役割を捉えるため、MODELCITIZENSの投稿をLLM生成の会話シナリオで拡張しました。最先端の有害性検出ツール(例:OpenAI Moderation API、GPT-o4-mini)はMODELCITIZENSで性能が低く、文脈拡張された投稿ではさらに性能が低下します。最後に、MODELCITIZENSでファインチューニングしたLLaMAベースのLLAMACITIZEN-8BとGemmaベースのGEMMACITIZEN-12Bをリリースし、これらはGPT-o4-miniをイン・ディストリビューション評価で5.5%上回りました。我々の研究結果は、包括的なコンテンツモデレーションのためのコミュニティ主導のアノテーションとモデリングの重要性を強調しています。データ、モデル、コードはhttps://github.com/asuvarna31/modelcitizensで公開されています。
English
Automatic toxic language detection is critical for creating safe, inclusive online spaces. However, it is a highly subjective task, with perceptions of toxic language shaped by community norms and lived experience. Existing toxicity detection models are typically trained on annotations that collapse diverse annotator perspectives into a single ground truth, erasing important context-specific notions of toxicity such as reclaimed language. To address this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K toxicity annotations across diverse identity groups. To capture the role of conversational context on toxicity, typical of social media posts, we augment MODELCITIZENS posts with LLM-generated conversational scenarios. State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API, GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on context-augmented posts. Finally, we release LLAMACITIZEN-8B and GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS, which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our findings highlight the importance of community-informed annotation and modeling for inclusive content moderation. The data, models and code are available at https://github.com/asuvarna31/modelcitizens.
PDF41July 10, 2025