Ensinar modelos a equilibrar a resistência e aceitação da persuasão.
Teaching Models to Balance Resisting and Accepting Persuasion
October 18, 2024
Autores: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs) são suscetíveis à persuasão, o que pode representar riscos quando os modelos são confrontados com um interlocutor adversário. Damos um primeiro passo em direção à defesa dos modelos contra a persuasão, argumentando também que a defesa contra a persuasão adversarial (ou seja, negativa) é apenas metade da equação: os modelos também devem ser capazes de aceitar persuasão benéfica (ou seja, positiva) para melhorar suas respostas. Mostramos que otimizar os modelos apenas para um lado resulta em baixo desempenho no outro. Para equilibrar a persuasão positiva e negativa, introduzimos o Treinamento Balanceado de Persuasão (ou PBT), que utiliza árvores de diálogo recursivas multiagentes para criar dados e treinar modelos por meio da otimização de preferências para aceitar persuasão quando apropriado. O PBT melhora consistentemente a resistência à desinformação e a resiliência ao ser desafiado, resultando também no melhor desempenho geral em dados holísticos contendo tanto persuasão positiva quanto negativa. Crucialmente, mostramos que os modelos PBT são melhores parceiros em debates multiagentes. Descobrimos que, sem o PBT, pares de modelos mais fortes e mais fracos têm desempenho instável, com a ordem em que os modelos apresentam suas respostas determinando se a equipe obtém o desempenho do modelo mais forte ou mais fraco. O PBT leva a resultados melhores e mais estáveis e menos dependência da ordem, com o modelo mais forte puxando consistentemente o mais fraco para cima.
English
Large language models (LLMs) are susceptible to persuasion, which can pose
risks when models are faced with an adversarial interlocutor. We take a first
step towards defending models against persuasion while also arguing that
defense against adversarial (i.e. negative) persuasion is only half of the
equation: models should also be able to accept beneficial (i.e. positive)
persuasion to improve their answers. We show that optimizing models for only
one side results in poor performance on the other. In order to balance positive
and negative persuasion, we introduce Persuasion-Balanced Training (or PBT),
which leverages multi-agent recursive dialogue trees to create data and trains
models via preference optimization to accept persuasion when appropriate. PBT
consistently improves resistance to misinformation and resilience to being
challenged while also resulting in the best overall performance on holistic
data containing both positive and negative persuasion. Crucially, we show that
PBT models are better teammates in multi-agent debates. We find that without
PBT, pairs of stronger and weaker models have unstable performance, with the
order in which the models present their answers determining whether the team
obtains the stronger or weaker model's performance. PBT leads to better and
more stable results and less order dependence, with the stronger model
consistently pulling the weaker one up.Summary
AI-Generated Summary