Contradiscurso contextualizado: Estrategias para Adaptación, Personalización y Evaluación
Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation
December 10, 2024
Autores: Lorenzo Cima, Alessio Miaschi, Amaury Trujillo, Marco Avvenuti, Felice Dell'Orletta, Stefano Cresci
cs.AI
Resumen
El contraataque generado por IA ofrece una estrategia prometedora y escalable para frenar la toxicidad en línea a través de respuestas directas que promueven el discurso civil. Sin embargo, el contraataque actual es genérico, careciendo de adaptación al contexto de moderación y a los usuarios involucrados. Proponemos y evaluamos múltiples estrategias para generar un contraataque personalizado que se adapte al contexto de moderación y sea personalizado para el usuario moderado. Instruimos a un modelo LLaMA2-13B para generar contraataques, experimentando con diversas configuraciones basadas en diferente información contextual y estrategias de ajuste fino. Identificamos las configuraciones que generan un contraataque persuasivo a través de una combinación de indicadores cuantitativos y evaluaciones humanas recopiladas a través de un experimento de crowdsourcing de diseño mixto pre-registrado. Los resultados muestran que el contraataque contextualizado puede superar significativamente al contraataque genérico de vanguardia en adecuación y persuasión, sin comprometer otras características. Nuestros hallazgos también revelan una débil correlación entre los indicadores cuantitativos y las evaluaciones humanas, sugiriendo que estos métodos evalúan diferentes aspectos y resaltando la necesidad de metodologías de evaluación matizadas. La efectividad del contraataque generado por IA contextualizado y la divergencia entre las evaluaciones humanas y algorítmicas subrayan la importancia de una mayor colaboración humano-IA en la moderación de contenido.
English
AI-generated counterspeech offers a promising and scalable strategy to curb
online toxicity through direct replies that promote civil discourse. However,
current counterspeech is one-size-fits-all, lacking adaptation to the
moderation context and the users involved. We propose and evaluate multiple
strategies for generating tailored counterspeech that is adapted to the
moderation context and personalized for the moderated user. We instruct an
LLaMA2-13B model to generate counterspeech, experimenting with various
configurations based on different contextual information and fine-tuning
strategies. We identify the configurations that generate persuasive
counterspeech through a combination of quantitative indicators and human
evaluations collected via a pre-registered mixed-design crowdsourcing
experiment. Results show that contextualized counterspeech can significantly
outperform state-of-the-art generic counterspeech in adequacy and
persuasiveness, without compromising other characteristics. Our findings also
reveal a poor correlation between quantitative indicators and human
evaluations, suggesting that these methods assess different aspects and
highlighting the need for nuanced evaluation methodologies. The effectiveness
of contextualized AI-generated counterspeech and the divergence between human
and algorithmic evaluations underscore the importance of increased human-AI
collaboration in content moderation.Summary
AI-Generated Summary