ModelCitizens: Представление голосов сообщества в вопросах онлайн-безопасности
ModelCitizens: Representing Community Voices in Online Safety
July 7, 2025
Авторы: Ashima Suvarna, Christina Chance, Karolina Naranjo, Hamid Palangi, Sophie Hao, Thomas Hartvigsen, Saadia Gabriel
cs.AI
Аннотация
Автоматическое обнаружение токсичного языка имеет решающее значение для создания безопасных и инклюзивных онлайн-пространств. Однако это крайне субъективная задача, поскольку восприятие токсичного языка формируется под влиянием норм сообщества и личного опыта. Существующие модели обнаружения токсичности обычно обучаются на аннотациях, которые сводят разнообразные точки зрения аннотаторов к единой "истине", стирая важные контекстные аспекты токсичности, такие как рекламируемый язык. Чтобы решить эту проблему, мы представляем MODELCITIZENS — набор данных, включающий 6,8 тыс. постов из социальных сетей и 40 тыс. аннотаций токсичности, охватывающих различные группы идентичности. Чтобы учесть влияние контекста общения на токсичность, что характерно для постов в социальных сетях, мы дополняем посты из MODELCITIZENS сценариями диалогов, сгенерированными с помощью языковых моделей (LLM). Современные инструменты обнаружения токсичности (например, OpenAI Moderation API, GPT-o4-mini) показывают низкую эффективность на данных MODELCITIZENS, с дальнейшим ухудшением на постах, дополненных контекстом. Наконец, мы выпускаем LLAMACITIZEN-8B и GEMMACITIZEN-12B — модели на основе LLaMA и Gemma, дообученные на данных MODELCITIZENS, которые превосходят GPT-o4-mini на 5,5% в рамках внутрираспределительных оценок. Наши результаты подчеркивают важность аннотирования и моделирования, учитывающего мнение сообщества, для инклюзивной модерации контента. Данные, модели и код доступны по адресу https://github.com/asuvarna31/modelcitizens.
English
Automatic toxic language detection is critical for creating safe, inclusive
online spaces. However, it is a highly subjective task, with perceptions of
toxic language shaped by community norms and lived experience. Existing
toxicity detection models are typically trained on annotations that collapse
diverse annotator perspectives into a single ground truth, erasing important
context-specific notions of toxicity such as reclaimed language. To address
this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K
toxicity annotations across diverse identity groups. To capture the role of
conversational context on toxicity, typical of social media posts, we augment
MODELCITIZENS posts with LLM-generated conversational scenarios.
State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API,
GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on
context-augmented posts. Finally, we release LLAMACITIZEN-8B and
GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS,
which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our
findings highlight the importance of community-informed annotation and modeling
for inclusive content moderation. The data, models and code are available at
https://github.com/asuvarna31/modelcitizens.