Enseñando a los Modelos a Equilibrar la Resistencia y la Aceptación de la Persuasión.
Teaching Models to Balance Resisting and Accepting Persuasion
October 18, 2024
Autores: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) son susceptibles a la persuasión, lo cual puede plantear riesgos cuando los modelos se enfrentan a un interlocutor adversario. Damos un primer paso hacia la defensa de los modelos contra la persuasión, argumentando también que la defensa contra la persuasión adversarial (es decir, negativa) es solo la mitad de la ecuación: los modelos también deberían poder aceptar la persuasión beneficiosa (es decir, positiva) para mejorar sus respuestas. Mostramos que optimizar los modelos solo para un lado resulta en un bajo rendimiento en el otro. Para equilibrar la persuasión positiva y negativa, introducimos el Entrenamiento Equilibrado de Persuasión (o PBT), que aprovecha árboles de diálogo recursivos multiagentes para crear datos y entrenar modelos a través de la optimización de preferencias para aceptar la persuasión cuando sea apropiado. El PBT mejora consistentemente la resistencia a la desinformación y la capacidad de ser desafiado, al mismo tiempo que resulta en el mejor rendimiento general en datos holísticos que contienen tanto persuasión positiva como negativa. Esencialmente, demostramos que los modelos PBT son mejores compañeros en debates multiagentes. Descubrimos que sin el PBT, los pares de modelos más fuertes y más débiles tienen un rendimiento inestable, siendo el orden en el que los modelos presentan sus respuestas determinante para que el equipo obtenga el rendimiento del modelo más fuerte o más débil. El PBT conduce a resultados mejores y más estables, y a una menor dependencia del orden, con el modelo más fuerte elevando consistentemente al más débil.
English
Large language models (LLMs) are susceptible to persuasion, which can pose
risks when models are faced with an adversarial interlocutor. We take a first
step towards defending models against persuasion while also arguing that
defense against adversarial (i.e. negative) persuasion is only half of the
equation: models should also be able to accept beneficial (i.e. positive)
persuasion to improve their answers. We show that optimizing models for only
one side results in poor performance on the other. In order to balance positive
and negative persuasion, we introduce Persuasion-Balanced Training (or PBT),
which leverages multi-agent recursive dialogue trees to create data and trains
models via preference optimization to accept persuasion when appropriate. PBT
consistently improves resistance to misinformation and resilience to being
challenged while also resulting in the best overall performance on holistic
data containing both positive and negative persuasion. Crucially, we show that
PBT models are better teammates in multi-agent debates. We find that without
PBT, pairs of stronger and weaker models have unstable performance, with the
order in which the models present their answers determining whether the team
obtains the stronger or weaker model's performance. PBT leads to better and
more stable results and less order dependence, with the stronger model
consistently pulling the weaker one up.Summary
AI-Generated Summary