Insegnare ai modelli a bilanciare la resistenza e l'accettazione della persuasione.
Teaching Models to Balance Resisting and Accepting Persuasion
October 18, 2024
Autori: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono suscettibili alla persuasione, il che può comportare rischi quando i modelli si trovano di fronte a un interlocutore avversario. Intraprendiamo un primo passo verso la difesa dei modelli dalla persuasione, sostenendo anche che la difesa contro la persuasione avversaria (cioè negativa) è solo metà dell'equazione: i modelli dovrebbero anche essere in grado di accettare la persuasione benefica (cioè positiva) per migliorare le loro risposte. Mostreremo che ottimizzare i modelli solo per un lato porta a prestazioni scadenti sull'altro. Per bilanciare la persuasione positiva e negativa, introduciamo l'Addestramento Bilanciato alla Persuasione (o PBT), che sfrutta alberi di dialogo ricorsivi multi-agente per creare dati e addestrare i modelli tramite ottimizzazione delle preferenze per accettare la persuasione quando appropriato. Il PBT migliora costantemente la resistenza alla disinformazione e la resilienza alle sfide, producendo anche le migliori prestazioni complessive su dati olistici contenenti sia persuasione positiva che negativa. In modo cruciale, dimostriamo che i modelli PBT sono migliori compagni in dibattiti multi-agente. Abbiamo riscontrato che senza il PBT, le coppie di modelli più forti e più deboli hanno prestazioni instabili, con l'ordine in cui i modelli presentano le loro risposte che determina se il team ottiene le prestazioni del modello più forte o più debole. Il PBT porta a risultati migliori e più stabili e a una minore dipendenza dall'ordine, con il modello più forte che solleva costantemente quello più debole.
English
Large language models (LLMs) are susceptible to persuasion, which can pose
risks when models are faced with an adversarial interlocutor. We take a first
step towards defending models against persuasion while also arguing that
defense against adversarial (i.e. negative) persuasion is only half of the
equation: models should also be able to accept beneficial (i.e. positive)
persuasion to improve their answers. We show that optimizing models for only
one side results in poor performance on the other. In order to balance positive
and negative persuasion, we introduce Persuasion-Balanced Training (or PBT),
which leverages multi-agent recursive dialogue trees to create data and trains
models via preference optimization to accept persuasion when appropriate. PBT
consistently improves resistance to misinformation and resilience to being
challenged while also resulting in the best overall performance on holistic
data containing both positive and negative persuasion. Crucially, we show that
PBT models are better teammates in multi-agent debates. We find that without
PBT, pairs of stronger and weaker models have unstable performance, with the
order in which the models present their answers determining whether the team
obtains the stronger or weaker model's performance. PBT leads to better and
more stable results and less order dependence, with the stronger model
consistently pulling the weaker one up.Summary
AI-Generated Summary