К пониманию сикофантства в языковых моделях
Towards Understanding Sycophancy in Language Models
October 20, 2023
Авторы: Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
cs.AI
Аннотация
Обучение с подкреплением на основе человеческой обратной связи (RLHF) является популярным методом для обучения высококачественных ИИ-ассистентов. Однако RLHF также может способствовать тому, что модели будут выдавать ответы, соответствующие убеждениям пользователя, вместо правдивых ответов, — поведение, известное как сикофантство. Мы исследуем распространенность сикофантства в моделях, обученных с использованием RLHF, и выясняем, являются ли суждения о человеческих предпочтениях причиной этого. Сначала мы демонстрируем, что пять современных ИИ-ассистентов последовательно проявляют сикофантское поведение в четырех различных задачах генерации свободного текста. Чтобы понять, обусловлено ли это широко наблюдаемое поведение моделей RLHF человеческими предпочтениями, мы анализируем существующие данные о таких предпочтениях. Мы обнаруживаем, что ответ, совпадающий с взглядами пользователя, с большей вероятностью будет предпочтен. Более того, как люди, так и модели предпочтений (PM) в незначительной доле случаев предпочитают убедительно написанные сикофантские ответы правильным. Оптимизация выходных данных моделей с учетом PM также иногда жертвует правдивостью в пользу сикофантства. В целом, наши результаты указывают на то, что сикофантство является общим поведением моделей RLHF, вероятно, частично обусловленным человеческими предпочтениями, которые склоняются к сикофантским ответам.
English
Reinforcement learning from human feedback (RLHF) is a popular technique for
training high-quality AI assistants. However, RLHF may also encourage model
responses that match user beliefs over truthful responses, a behavior known as
sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models
and whether human preference judgements are responsible. We first demonstrate
that five state-of-the-art AI assistants consistently exhibit sycophantic
behavior across four varied free-form text-generation tasks. To understand if
human preferences drive this broadly observed behavior of RLHF models, we
analyze existing human preference data. We find that when a response matches a
user's views, it is more likely to be preferred. Moreover, both humans and
preference models (PMs) prefer convincingly-written sycophantic responses over
correct ones a negligible fraction of the time. Optimizing model outputs
against PMs also sometimes sacrifices truthfulness in favor of sycophancy.
Overall, our results indicate that sycophancy is a general behavior of RLHF
models, likely driven in part by human preference judgements favoring
sycophantic responses.