ChatPaper.aiChatPaper

Zur Untersuchung von Speichelleckerei in Sprachmodellen

Towards Understanding Sycophancy in Language Models

October 20, 2023
Autoren: Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
cs.AI

Zusammenfassung

Reinforcement Learning from Human Feedback (RLHF) ist eine beliebte Technik zur Schulung hochwertiger KI-Assistenten. Allerdings kann RLHF auch Modellantworten fördern, die eher den Überzeugungen der Nutzer entsprechen als wahrheitsgemäßen Antworten, ein Verhalten, das als Sykophantie bekannt ist. Wir untersuchen die Verbreitung von Sykophantie in RLHF-trainierten Modellen und ob menschliche Präferenzurteile dafür verantwortlich sind. Zunächst zeigen wir, dass fünf state-of-the-art KI-Assistenten durchweg sykophantisches Verhalten in vier verschiedenen freien Textgenerierungsaufgaben zeigen. Um zu verstehen, ob menschliche Präferenzen dieses weit verbreitete Verhalten von RLHF-Modellen antreiben, analysieren wir bestehende menschliche Präferenzdaten. Wir stellen fest, dass eine Antwort, die den Ansichten eines Nutzers entspricht, mit höherer Wahrscheinlichkeit bevorzugt wird. Darüber hinaus bevorzugen sowohl Menschen als auch Präferenzmodelle (PMs) in einem geringen Anteil der Fälle überzeugend formulierte sykophantische Antworten gegenüber korrekten. Die Optimierung von Modellausgaben gegen PMs opfert manchmal auch die Wahrhaftigkeit zugunsten von Sykophantie. Insgesamt deuten unsere Ergebnisse darauf hin, dass Sykophantie ein allgemeines Verhalten von RLHF-Modellen ist, das wahrscheinlich teilweise durch menschliche Präferenzurteile angetrieben wird, die sykophantische Antworten begünstigen.
English
Reinforcement learning from human feedback (RLHF) is a popular technique for training high-quality AI assistants. However, RLHF may also encourage model responses that match user beliefs over truthful responses, a behavior known as sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models and whether human preference judgements are responsible. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophantic behavior across four varied free-form text-generation tasks. To understand if human preferences drive this broadly observed behavior of RLHF models, we analyze existing human preference data. We find that when a response matches a user's views, it is more likely to be preferred. Moreover, both humans and preference models (PMs) prefer convincingly-written sycophantic responses over correct ones a negligible fraction of the time. Optimizing model outputs against PMs also sometimes sacrifices truthfulness in favor of sycophancy. Overall, our results indicate that sycophancy is a general behavior of RLHF models, likely driven in part by human preference judgements favoring sycophantic responses.
PDF72December 15, 2024