ChatPaper.aiChatPaper

ModelCitizens: Die Repräsentation von Gemeinschaftsstimmen in der Online-Sicherheit

ModelCitizens: Representing Community Voices in Online Safety

July 7, 2025
papers.authors: Ashima Suvarna, Christina Chance, Karolina Naranjo, Hamid Palangi, Sophie Hao, Thomas Hartvigsen, Saadia Gabriel
cs.AI

papers.abstract

Die automatische Erkennung von toxischer Sprache ist entscheidend für die Schaffung sicherer, inklusiver Online-Räume. Es handelt sich jedoch um eine hochgradig subjektive Aufgabe, da die Wahrnehmung von toxischer Sprache durch Gemeinschaftsnormen und persönliche Erfahrungen geprägt ist. Bestehende Modelle zur Toxizitätserkennung werden typischerweise auf Annotationen trainiert, die unterschiedliche Perspektiven der Annotatoren in eine einzige Grundwahrheit zusammenfassen, wodurch wichtige kontextspezifische Vorstellungen von Toxizität, wie beispielsweise reklamierte Sprache, verloren gehen. Um dies zu adressieren, stellen wir MODELCITIZENS vor, einen Datensatz mit 6.8K Social-Media-Beiträgen und 40K Toxizitätsannotationen über diverse Identitätsgruppen hinweg. Um die Rolle des Konversationskontexts auf die Toxizität, wie er typischerweise in Social-Media-Beiträgen vorkommt, zu erfassen, ergänzen wir MODELCITIZENS-Beiträge mit LLM-generierten Konversationsszenarien. State-of-the-Art-Toxizitätserkennungstools (z.B. OpenAI Moderation API, GPT-o4-mini) schneiden bei MODELCITIZENS schlechter ab, mit weiterer Verschlechterung bei kontextangereicherten Beiträgen. Schließlich veröffentlichen wir LLAMACITIZEN-8B und GEMMACITIZEN-12B, auf MODELCITIZENS feinabgestimmte Modelle basierend auf LLaMA und Gemma, die GPT-o4-mini in In-Distribution-Evaluierungen um 5.5% übertreffen. Unsere Ergebnisse unterstreichen die Bedeutung von gemeindebasierten Annotationen und Modellierungen für eine inklusive Inhaltsmoderation. Die Daten, Modelle und der Code sind unter https://github.com/asuvarna31/modelcitizens verfügbar.
English
Automatic toxic language detection is critical for creating safe, inclusive online spaces. However, it is a highly subjective task, with perceptions of toxic language shaped by community norms and lived experience. Existing toxicity detection models are typically trained on annotations that collapse diverse annotator perspectives into a single ground truth, erasing important context-specific notions of toxicity such as reclaimed language. To address this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K toxicity annotations across diverse identity groups. To capture the role of conversational context on toxicity, typical of social media posts, we augment MODELCITIZENS posts with LLM-generated conversational scenarios. State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API, GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on context-augmented posts. Finally, we release LLAMACITIZEN-8B and GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS, which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our findings highlight the importance of community-informed annotation and modeling for inclusive content moderation. The data, models and code are available at https://github.com/asuvarna31/modelcitizens.
PDF41July 10, 2025