抵抗と受容の説得をバランスさせるモデルへの教示
Teaching Models to Balance Resisting and Accepting Persuasion
October 18, 2024
著者: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
cs.AI
要旨
大規模言語モデル(LLMs)は説得に対して影響を受けやすく、これはモデルが敵対的な相手と直面した際にリスクをもたらす可能性があります。私たちは、モデルを説得に対して防御する最初のステップを踏みながらも、敵対的(つまり否定的)説得に対する防御は方程式の半分に過ぎないと主張します。モデルは、回答を改善するために有益な(つまり肯定的な)説得を受け入れることもできるべきであるとも述べます。私たちは、片方だけを最適化することが他方のパフォーマンスを低下させることを示します。肯定的な説得と否定的な説得をバランスよく取り入れるために、我々はPersuasion-Balanced Training(PBT)を導入します。これは、多エージェントの再帰的な対話ツリーを活用してデータを作成し、適切な場面で説得を受け入れるようにモデルをトレーニングするための好み最適化を行います。PBTは、誤情報に対する抵抗力と挑戦に対する回復力を一貫して向上させると同時に、肯定的な説得と否定的な説得の両方を含む包括的データにおいて最良の全体的パフォーマンスをもたらします。重要なのは、PBTモデルが多エージェントの議論においてより良いチームメイトであることを示しています。PBTがない場合、強いモデルと弱いモデルのペアは安定しないパフォーマンスを示し、モデルが回答を提示する順番がチームが強いモデルのパフォーマンスを得るか弱いモデルのパフォーマンスを得るかを決定します。PBTはより良い安定した結果をもたらし、順序に依存しないようにし、強いモデルが一貫して弱いモデルを引き上げることができます。
English
Large language models (LLMs) are susceptible to persuasion, which can pose
risks when models are faced with an adversarial interlocutor. We take a first
step towards defending models against persuasion while also arguing that
defense against adversarial (i.e. negative) persuasion is only half of the
equation: models should also be able to accept beneficial (i.e. positive)
persuasion to improve their answers. We show that optimizing models for only
one side results in poor performance on the other. In order to balance positive
and negative persuasion, we introduce Persuasion-Balanced Training (or PBT),
which leverages multi-agent recursive dialogue trees to create data and trains
models via preference optimization to accept persuasion when appropriate. PBT
consistently improves resistance to misinformation and resilience to being
challenged while also resulting in the best overall performance on holistic
data containing both positive and negative persuasion. Crucially, we show that
PBT models are better teammates in multi-agent debates. We find that without
PBT, pairs of stronger and weaker models have unstable performance, with the
order in which the models present their answers determining whether the team
obtains the stronger or weaker model's performance. PBT leads to better and
more stable results and less order dependence, with the stronger model
consistently pulling the weaker one up.Summary
AI-Generated Summary