ModelCitizens: Rappresentare le Voci della Comunità nella Sicurezza Online
ModelCitizens: Representing Community Voices in Online Safety
July 7, 2025
Autori: Ashima Suvarna, Christina Chance, Karolina Naranjo, Hamid Palangi, Sophie Hao, Thomas Hartvigsen, Saadia Gabriel
cs.AI
Abstract
Il rilevamento automatico del linguaggio tossico è fondamentale per creare spazi online sicuri e inclusivi. Tuttavia, si tratta di un compito altamente soggettivo, in cui le percezioni del linguaggio tossico sono influenzate dalle norme comunitarie e dalle esperienze vissute. I modelli esistenti per il rilevamento della tossicità sono tipicamente addestrati su annotazioni che condensano le diverse prospettive degli annotatori in un'unica verità di riferimento, cancellando importanti nozioni contestuali di tossicità come il linguaggio reclamato. Per affrontare questo problema, introduciamo MODELCITIZENS, un dataset composto da 6.8K post sui social media e 40K annotazioni di tossicità attraverso diversi gruppi identitari. Per catturare il ruolo del contesto conversazionale sulla tossicità, tipico dei post sui social media, abbiamo arricchito i post di MODELCITIZENS con scenari conversazionali generati da LLM. Gli strumenti all'avanguardia per il rilevamento della tossicità (ad esempio, OpenAI Moderation API, GPT-o4-mini) ottengono prestazioni inferiori su MODELCITIZENS, con un ulteriore peggioramento sui post arricchiti dal contesto. Infine, rilasciamo LLAMACITIZEN-8B e GEMMACITIZEN-12B, modelli basati su LLaMA e Gemma ottimizzati su MODELCITIZENS, che superano GPT-o4-mini del 5.5% nelle valutazioni in-distribuzione. I nostri risultati evidenziano l'importanza di annotazioni e modellazioni informate dalla comunità per una moderazione dei contenuti inclusiva. I dati, i modelli e il codice sono disponibili su https://github.com/asuvarna31/modelcitizens.
English
Automatic toxic language detection is critical for creating safe, inclusive
online spaces. However, it is a highly subjective task, with perceptions of
toxic language shaped by community norms and lived experience. Existing
toxicity detection models are typically trained on annotations that collapse
diverse annotator perspectives into a single ground truth, erasing important
context-specific notions of toxicity such as reclaimed language. To address
this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K
toxicity annotations across diverse identity groups. To capture the role of
conversational context on toxicity, typical of social media posts, we augment
MODELCITIZENS posts with LLM-generated conversational scenarios.
State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API,
GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on
context-augmented posts. Finally, we release LLAMACITIZEN-8B and
GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS,
which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our
findings highlight the importance of community-informed annotation and modeling
for inclusive content moderation. The data, models and code are available at
https://github.com/asuvarna31/modelcitizens.