Контекстуализированная контрреч: стратегии адаптации, персонализации и оценки
Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation
December 10, 2024
Авторы: Lorenzo Cima, Alessio Miaschi, Amaury Trujillo, Marco Avvenuti, Felice Dell'Orletta, Stefano Cresci
cs.AI
Аннотация
Генерация контрречи от искусственного интеллекта предлагает многообещающую и масштабируемую стратегию для сдерживания онлайн токсичности через прямые ответы, способствующие гражданскому диалогу. Однако текущая контрречь представляет собой универсальное решение, не адаптированное к контексту модерации и пользователям, участвующим в общении. Мы предлагаем и оцениваем несколько стратегий генерации индивидуализированной контрречи, адаптированной к контексту модерации и персонализированной для модерируемого пользователя. Мы обучаем модель LLaMA2-13B генерировать контрречи, экспериментируя с различными конфигурациями на основе различной контекстной информации и стратегий донастройки. Мы выявляем конфигурации, генерирующие убедительную контрречь, через комбинацию количественных показателей и оценок людей, собранных с помощью предварительно зарегистрированного многоуровневого краудсорсингового эксперимента. Результаты показывают, что контекстуализированная контрречь может значительно превзойти современную универсальную контрречь по соответствию и убедительности, не ущемляя другие характеристики. Наши результаты также показывают слабую корреляцию между количественными показателями и оценками людей, что указывает на то, что эти методы оценивают различные аспекты и подчеркивает необходимость тонких методологий оценки. Эффективность контекстуализированной генерации контрречи от искусственного интеллекта и расхождение между оценками людей и алгоритмическими подчеркивают важность увеличения сотрудничества между человеком и искусственным интеллектом в модерации контента.
English
AI-generated counterspeech offers a promising and scalable strategy to curb
online toxicity through direct replies that promote civil discourse. However,
current counterspeech is one-size-fits-all, lacking adaptation to the
moderation context and the users involved. We propose and evaluate multiple
strategies for generating tailored counterspeech that is adapted to the
moderation context and personalized for the moderated user. We instruct an
LLaMA2-13B model to generate counterspeech, experimenting with various
configurations based on different contextual information and fine-tuning
strategies. We identify the configurations that generate persuasive
counterspeech through a combination of quantitative indicators and human
evaluations collected via a pre-registered mixed-design crowdsourcing
experiment. Results show that contextualized counterspeech can significantly
outperform state-of-the-art generic counterspeech in adequacy and
persuasiveness, without compromising other characteristics. Our findings also
reveal a poor correlation between quantitative indicators and human
evaluations, suggesting that these methods assess different aspects and
highlighting the need for nuanced evaluation methodologies. The effectiveness
of contextualized AI-generated counterspeech and the divergence between human
and algorithmic evaluations underscore the importance of increased human-AI
collaboration in content moderation.Summary
AI-Generated Summary