Обучение моделей находить баланс между сопротивлением и принятием убеждения.
Teaching Models to Balance Resisting and Accepting Persuasion
October 18, 2024
Авторы: Elias Stengel-Eskin, Peter Hase, Mohit Bansal
cs.AI
Аннотация
Большие языковые модели (LLM) подвержены убеждению, что может создавать риски, когда модели сталкиваются с адверсарным собеседником. Мы делаем первый шаг к защите моделей от убеждения, а также аргументируем, что защита от адверсарного (т.е. негативного) убеждения - лишь половина уравнения: модели также должны быть способны принимать благоприятное (т.е. позитивное) убеждение для улучшения своих ответов. Мы показываем, что оптимизация моделей только для одной стороны приводит к плохим результатам на другой. Для балансировки позитивного и негативного убеждения мы представляем Обучение сбалансированному убеждению (или PBT), которое использует многоагентные рекурсивные диалоговые деревья для создания данных и обучения моделей с помощью оптимизации предпочтений для принятия убеждения при необходимости. PBT последовательно улучшает устойчивость к дезинформации и устойчивость к вызовам, а также приводит к лучшей общей производительности на голистических данных, содержащих как позитивное, так и негативное убеждение. Критически важно, что мы показываем, что модели PBT являются лучшими партнерами в многоагентных дебатах. Мы обнаружили, что без PBT пары более сильных и более слабых моделей имеют нестабильную производительность, при этом порядок, в котором модели представляют свои ответы, определяет, получит ли команда производительность более сильной или более слабой модели. PBT приводит к лучшим и более стабильным результатам, а также к уменьшению зависимости от порядка, при этом более сильная модель последовательно поднимает более слабую.
English
Large language models (LLMs) are susceptible to persuasion, which can pose
risks when models are faced with an adversarial interlocutor. We take a first
step towards defending models against persuasion while also arguing that
defense against adversarial (i.e. negative) persuasion is only half of the
equation: models should also be able to accept beneficial (i.e. positive)
persuasion to improve their answers. We show that optimizing models for only
one side results in poor performance on the other. In order to balance positive
and negative persuasion, we introduce Persuasion-Balanced Training (or PBT),
which leverages multi-agent recursive dialogue trees to create data and trains
models via preference optimization to accept persuasion when appropriate. PBT
consistently improves resistance to misinformation and resilience to being
challenged while also resulting in the best overall performance on holistic
data containing both positive and negative persuasion. Crucially, we show that
PBT models are better teammates in multi-agent debates. We find that without
PBT, pairs of stronger and weaker models have unstable performance, with the
order in which the models present their answers determining whether the team
obtains the stronger or weaker model's performance. PBT leads to better and
more stable results and less order dependence, with the stronger model
consistently pulling the weaker one up.Summary
AI-Generated Summary