Contra-discurso Contextualizado: Estratégias para Adaptação, Personalização e Avaliação
Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation
December 10, 2024
Autores: Lorenzo Cima, Alessio Miaschi, Amaury Trujillo, Marco Avvenuti, Felice Dell'Orletta, Stefano Cresci
cs.AI
Resumo
A contra-retórica gerada por IA oferece uma estratégia promissora e escalável para conter a toxicidade online por meio de respostas diretas que promovem o discurso civil. No entanto, a contra-retórica atual é genérica, carecendo de adaptação ao contexto de moderação e aos usuários envolvidos. Propomos e avaliamos múltiplas estratégias para gerar uma contra-retórica personalizada que seja adaptada ao contexto de moderação e personalizada para o usuário moderado. Instruímos um modelo LLaMA2-13B para gerar contra-retórica, experimentando com várias configurações com base em diferentes informações contextuais e estratégias de ajuste fino. Identificamos as configurações que geram uma contra-retórica persuasiva por meio de uma combinação de indicadores quantitativos e avaliações humanas coletadas por meio de um experimento de crowdsourcing com design misto pré-registrado. Os resultados mostram que a contra-retórica contextualizada pode superar significativamente a contra-retórica genérica de ponta em adequação e persuasão, sem comprometer outras características. Nossas descobertas também revelam uma fraca correlação entre indicadores quantitativos e avaliações humanas, sugerindo que esses métodos avaliam aspectos diferentes e destacando a necessidade de metodologias de avaliação mais refinadas. A eficácia da contra-retórica gerada por IA contextualizada e a divergência entre avaliações humanas e algorítmicas destacam a importância de uma maior colaboração entre humanos e IA na moderação de conteúdo.
English
AI-generated counterspeech offers a promising and scalable strategy to curb
online toxicity through direct replies that promote civil discourse. However,
current counterspeech is one-size-fits-all, lacking adaptation to the
moderation context and the users involved. We propose and evaluate multiple
strategies for generating tailored counterspeech that is adapted to the
moderation context and personalized for the moderated user. We instruct an
LLaMA2-13B model to generate counterspeech, experimenting with various
configurations based on different contextual information and fine-tuning
strategies. We identify the configurations that generate persuasive
counterspeech through a combination of quantitative indicators and human
evaluations collected via a pre-registered mixed-design crowdsourcing
experiment. Results show that contextualized counterspeech can significantly
outperform state-of-the-art generic counterspeech in adequacy and
persuasiveness, without compromising other characteristics. Our findings also
reveal a poor correlation between quantitative indicators and human
evaluations, suggesting that these methods assess different aspects and
highlighting the need for nuanced evaluation methodologies. The effectiveness
of contextualized AI-generated counterspeech and the divergence between human
and algorithmic evaluations underscore the importance of increased human-AI
collaboration in content moderation.Summary
AI-Generated Summary