ModelCitizens : Représenter les voix de la communauté dans la sécurité en ligne
ModelCitizens: Representing Community Voices in Online Safety
July 7, 2025
papers.authors: Ashima Suvarna, Christina Chance, Karolina Naranjo, Hamid Palangi, Sophie Hao, Thomas Hartvigsen, Saadia Gabriel
cs.AI
papers.abstract
La détection automatique de langage toxique est essentielle pour créer des espaces en ligne sûrs et inclusifs. Cependant, il s'agit d'une tâche hautement subjective, où les perceptions du langage toxique sont influencées par les normes communautaires et les expériences vécues. Les modèles existants de détection de toxicité sont généralement entraînés sur des annotations qui réduisent les perspectives diverses des annotateurs à une seule vérité de référence, effaçant ainsi des notions contextuelles importantes de toxicité, comme le langage réapproprié. Pour remédier à cela, nous présentons MODELCITIZENS, un ensemble de données comprenant 6,8K publications sur les réseaux sociaux et 40K annotations de toxicité couvrant divers groupes identitaires. Pour capturer l'impact du contexte conversationnel sur la toxicité, typique des publications sur les réseaux sociaux, nous enrichissons les publications de MODELCITIZENS avec des scénarios conversationnels générés par des modèles de langage (LLM). Les outils de détection de toxicité de pointe (par exemple, OpenAI Moderation API, GPT-o4-mini) sous-performent sur MODELCITIZENS, avec une dégradation supplémentaire sur les publications enrichies par le contexte. Enfin, nous publions LLAMACITIZEN-8B et GEMMACITIZEN-12B, des modèles basés sur LLaMA et Gemma affinés sur MODELCITIZENS, qui surpassent GPT-o4-mini de 5,5 % lors d'évaluations en distribution. Nos résultats soulignent l'importance des annotations et de la modélisation informées par la communauté pour une modération de contenu inclusive. Les données, modèles et code sont disponibles à l'adresse https://github.com/asuvarna31/modelcitizens.
English
Automatic toxic language detection is critical for creating safe, inclusive
online spaces. However, it is a highly subjective task, with perceptions of
toxic language shaped by community norms and lived experience. Existing
toxicity detection models are typically trained on annotations that collapse
diverse annotator perspectives into a single ground truth, erasing important
context-specific notions of toxicity such as reclaimed language. To address
this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K
toxicity annotations across diverse identity groups. To capture the role of
conversational context on toxicity, typical of social media posts, we augment
MODELCITIZENS posts with LLM-generated conversational scenarios.
State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API,
GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on
context-augmented posts. Finally, we release LLAMACITIZEN-8B and
GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS,
which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our
findings highlight the importance of community-informed annotation and modeling
for inclusive content moderation. The data, models and code are available at
https://github.com/asuvarna31/modelcitizens.