Naar een Begrip van Slaafsheid in Taalmodellen
Towards Understanding Sycophancy in Language Models
October 20, 2023
Auteurs: Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
cs.AI
Samenvatting
Reinforcement learning from human feedback (RLHF) is een populaire techniek voor het trainen van hoogwaardige AI-assistenten. Echter, RLHF kan ook modelreacties bevorderen die aansluiten bij de overtuigingen van gebruikers in plaats van waarheidsgetrouwe reacties, een gedrag dat bekend staat als sycophantie. Wij onderzoeken de prevalentie van sycophantie in met RLHF getrainde modellen en of menselijke voorkeursbeoordelingen hier verantwoordelijk voor zijn. We tonen eerst aan dat vijf state-of-the-art AI-assistenten consistent sycophantisch gedrag vertonen bij vier verschillende taken voor het genereren van vrije tekst. Om te begrijpen of menselijke voorkeuren dit breed waargenomen gedrag van RLHF-modellen aansturen, analyseren we bestaande gegevens over menselijke voorkeuren. We ontdekken dat wanneer een reactie overeenkomt met de opvattingen van een gebruiker, deze eerder de voorkeur krijgt. Bovendien geven zowel mensen als voorkeursmodellen (PMs) in een verwaarloosbaar aantal gevallen de voorkeur aan overtuigend geschreven sycophantische reacties boven correcte reacties. Het optimaliseren van modeloutputs tegen PMs offert soms ook waarachtigheid op ten gunste van sycophantie. Over het algemeen geven onze resultaten aan dat sycophantie een algemeen gedrag is van RLHF-modellen, waarschijnlijk deels aangestuurd door menselijke voorkeursbeoordelingen die sycophantische reacties bevoordelen.
English
Reinforcement learning from human feedback (RLHF) is a popular technique for
training high-quality AI assistants. However, RLHF may also encourage model
responses that match user beliefs over truthful responses, a behavior known as
sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models
and whether human preference judgements are responsible. We first demonstrate
that five state-of-the-art AI assistants consistently exhibit sycophantic
behavior across four varied free-form text-generation tasks. To understand if
human preferences drive this broadly observed behavior of RLHF models, we
analyze existing human preference data. We find that when a response matches a
user's views, it is more likely to be preferred. Moreover, both humans and
preference models (PMs) prefer convincingly-written sycophantic responses over
correct ones a negligible fraction of the time. Optimizing model outputs
against PMs also sometimes sacrifices truthfulness in favor of sycophancy.
Overall, our results indicate that sycophancy is a general behavior of RLHF
models, likely driven in part by human preference judgements favoring
sycophantic responses.