ModelCitizens : Représenter les voix de la communauté dans la sécurité en ligne

papers.abstract

La détection automatique de langage toxique est essentielle pour créer des espaces en ligne sûrs et inclusifs. Cependant, il s'agit d'une tâche hautement subjective, où les perceptions du langage toxique sont influencées par les normes communautaires et les expériences vécues. Les modèles existants de détection de toxicité sont généralement entraînés sur des annotations qui réduisent les perspectives diverses des annotateurs à une seule vérité de référence, effaçant ainsi des notions contextuelles importantes de toxicité, comme le langage réapproprié. Pour remédier à cela, nous présentons MODELCITIZENS, un ensemble de données comprenant 6,8K publications sur les réseaux sociaux et 40K annotations de toxicité couvrant divers groupes identitaires. Pour capturer l'impact du contexte conversationnel sur la toxicité, typique des publications sur les réseaux sociaux, nous enrichissons les publications de MODELCITIZENS avec des scénarios conversationnels générés par des modèles de langage (LLM). Les outils de détection de toxicité de pointe (par exemple, OpenAI Moderation API, GPT-o4-mini) sous-performent sur MODELCITIZENS, avec une dégradation supplémentaire sur les publications enrichies par le contexte. Enfin, nous publions LLAMACITIZEN-8B et GEMMACITIZEN-12B, des modèles basés sur LLaMA et Gemma affinés sur MODELCITIZENS, qui surpassent GPT-o4-mini de 5,5 % lors d'évaluations en distribution. Nos résultats soulignent l'importance des annotations et de la modélisation informées par la communauté pour une modération de contenu inclusive. Les données, modèles et code sont disponibles à l'adresse https://github.com/asuvarna31/modelcitizens.

English

Automatic toxic language detection is critical for creating safe, inclusive online spaces. However, it is a highly subjective task, with perceptions of toxic language shaped by community norms and lived experience. Existing toxicity detection models are typically trained on annotations that collapse diverse annotator perspectives into a single ground truth, erasing important context-specific notions of toxicity such as reclaimed language. To address this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K toxicity annotations across diverse identity groups. To capture the role of conversational context on toxicity, typical of social media posts, we augment MODELCITIZENS posts with LLM-generated conversational scenarios. State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API, GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on context-augmented posts. Finally, we release LLAMACITIZEN-8B and GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS, which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our findings highlight the importance of community-informed annotation and modeling for inclusive content moderation. The data, models and code are available at https://github.com/asuvarna31/modelcitizens.

ModelCitizens : Représenter les voix de la communauté dans la sécurité en ligne

ModelCitizens: Representing Community Voices in Online Safety

papers.abstract

Support