ChatPaper.aiChatPaper

ModelCitizens: Representando Vozes da Comunidade na Segurança Online

ModelCitizens: Representing Community Voices in Online Safety

July 7, 2025
Autores: Ashima Suvarna, Christina Chance, Karolina Naranjo, Hamid Palangi, Sophie Hao, Thomas Hartvigsen, Saadia Gabriel
cs.AI

Resumo

A detecção automática de linguagem tóxica é crucial para criar espaços online seguros e inclusivos. No entanto, essa é uma tarefa altamente subjetiva, com percepções de linguagem tóxica moldadas por normas comunitárias e experiências vividas. Os modelos existentes de detecção de toxicidade são normalmente treinados em anotações que condensam diversas perspectivas de anotadores em uma única verdade absoluta, apagando noções importantes de toxicidade específicas ao contexto, como a linguagem reivindicada. Para abordar isso, apresentamos o MODELCITIZENS, um conjunto de dados com 6,8 mil postagens de mídia social e 40 mil anotações de toxicidade em diversos grupos de identidade. Para capturar o papel do contexto conversacional na toxicidade, típico de postagens em mídias sociais, aumentamos as postagens do MODELCITIZENS com cenários conversacionais gerados por LLMs. Ferramentas de detecção de toxicidade de última geração (por exemplo, OpenAI Moderation API, GPT-o4-mini) têm desempenho inferior no MODELCITIZENS, com degradação adicional em postagens aumentadas com contexto. Por fim, lançamos o LLAMACITIZEN-8B e o GEMMACITIZEN-12B, modelos baseados em LLaMA e Gemma ajustados no MODELCITIZENS, que superam o GPT-o4-mini em 5,5% em avaliações dentro da distribuição. Nossas descobertas destacam a importância de anotações e modelagem informadas pela comunidade para uma moderação de conteúdo inclusiva. Os dados, modelos e código estão disponíveis em https://github.com/asuvarna31/modelcitizens.
English
Automatic toxic language detection is critical for creating safe, inclusive online spaces. However, it is a highly subjective task, with perceptions of toxic language shaped by community norms and lived experience. Existing toxicity detection models are typically trained on annotations that collapse diverse annotator perspectives into a single ground truth, erasing important context-specific notions of toxicity such as reclaimed language. To address this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K toxicity annotations across diverse identity groups. To capture the role of conversational context on toxicity, typical of social media posts, we augment MODELCITIZENS posts with LLM-generated conversational scenarios. State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API, GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on context-augmented posts. Finally, we release LLAMACITIZEN-8B and GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS, which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our findings highlight the importance of community-informed annotation and modeling for inclusive content moderation. The data, models and code are available at https://github.com/asuvarna31/modelcitizens.
PDF41July 10, 2025