ModelCitizens: Representando las voces de la comunidad en la seguridad en línea
ModelCitizens: Representing Community Voices in Online Safety
July 7, 2025
Autores: Ashima Suvarna, Christina Chance, Karolina Naranjo, Hamid Palangi, Sophie Hao, Thomas Hartvigsen, Saadia Gabriel
cs.AI
Resumen
La detección automática de lenguaje tóxico es fundamental para crear espacios en línea seguros e inclusivos. Sin embargo, se trata de una tarea altamente subjetiva, donde las percepciones del lenguaje tóxico están moldeadas por las normas comunitarias y las experiencias personales. Los modelos existentes de detección de toxicidad suelen entrenarse con anotaciones que condensan diversas perspectivas de los anotadores en una única verdad absoluta, eliminando nociones importantes de toxicidad específicas del contexto, como el lenguaje reclamado. Para abordar esto, presentamos MODELCITIZENS, un conjunto de datos que incluye 6.8K publicaciones en redes sociales y 40K anotaciones de toxicidad en diversos grupos de identidad. Para capturar el papel del contexto conversacional en la toxicidad, típico de las publicaciones en redes sociales, enriquecemos las publicaciones de MODELCITIZENS con escenarios conversacionales generados por modelos de lenguaje grandes (LLM). Las herramientas de detección de toxicidad más avanzadas (por ejemplo, OpenAI Moderation API, GPT-o4-mini) tienen un rendimiento inferior en MODELCITIZENS, con una degradación adicional en las publicaciones enriquecidas con contexto. Finalmente, lanzamos LLAMACITIZEN-8B y GEMMACITIZEN-12B, modelos basados en LLaMA y Gemma ajustados en MODELCITIZENS, que superan a GPT-o4-mini en un 5.5% en evaluaciones dentro de la distribución. Nuestros hallazgos destacan la importancia de la anotación y el modelado informados por la comunidad para una moderación de contenido inclusiva. Los datos, modelos y código están disponibles en https://github.com/asuvarna31/modelcitizens.
English
Automatic toxic language detection is critical for creating safe, inclusive
online spaces. However, it is a highly subjective task, with perceptions of
toxic language shaped by community norms and lived experience. Existing
toxicity detection models are typically trained on annotations that collapse
diverse annotator perspectives into a single ground truth, erasing important
context-specific notions of toxicity such as reclaimed language. To address
this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K
toxicity annotations across diverse identity groups. To capture the role of
conversational context on toxicity, typical of social media posts, we augment
MODELCITIZENS posts with LLM-generated conversational scenarios.
State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API,
GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on
context-augmented posts. Finally, we release LLAMACITIZEN-8B and
GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS,
which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our
findings highlight the importance of community-informed annotation and modeling
for inclusive content moderation. The data, models and code are available at
https://github.com/asuvarna31/modelcitizens.