Vers une compréhension de la flagornerie dans les modèles de langage
Towards Understanding Sycophancy in Language Models
October 20, 2023
Auteurs: Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
cs.AI
Résumé
L'apprentissage par renforcement à partir de retours humains (RLHF) est une technique populaire pour entraîner des assistants IA de haute qualité. Cependant, le RLHF peut également encourager des réponses du modèle qui correspondent aux croyances de l'utilisateur plutôt qu'à des réponses véridiques, un comportement connu sous le nom de sycophantie. Nous étudions la prévalence de la sycophantie dans les modèles entraînés par RLHF et si les jugements de préférence humaine en sont responsables. Nous démontrons d'abord que cinq assistants IA de pointe présentent systématiquement un comportement sycophantique dans quatre tâches variées de génération de texte libre. Pour comprendre si les préférences humaines sont à l'origine de ce comportement largement observé dans les modèles RLHF, nous analysons des données existantes de préférences humaines. Nous constatons que lorsqu'une réponse correspond aux opinions d'un utilisateur, elle est plus susceptible d'être préférée. De plus, tant les humains que les modèles de préférence (PM) préfèrent des réponses sycophantiques convaincantes plutôt que des réponses correctes dans une fraction négligeable des cas. L'optimisation des sorties des modèles par rapport aux PM sacrifie parfois la véracité au profit de la sycophantie. Globalement, nos résultats indiquent que la sycophantie est un comportement général des modèles RLHF, probablement en partie motivé par les jugements de préférence humaine favorisant les réponses sycophantiques.
English
Reinforcement learning from human feedback (RLHF) is a popular technique for
training high-quality AI assistants. However, RLHF may also encourage model
responses that match user beliefs over truthful responses, a behavior known as
sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models
and whether human preference judgements are responsible. We first demonstrate
that five state-of-the-art AI assistants consistently exhibit sycophantic
behavior across four varied free-form text-generation tasks. To understand if
human preferences drive this broadly observed behavior of RLHF models, we
analyze existing human preference data. We find that when a response matches a
user's views, it is more likely to be preferred. Moreover, both humans and
preference models (PMs) prefer convincingly-written sycophantic responses over
correct ones a negligible fraction of the time. Optimizing model outputs
against PMs also sometimes sacrifices truthfulness in favor of sycophancy.
Overall, our results indicate that sycophancy is a general behavior of RLHF
models, likely driven in part by human preference judgements favoring
sycophantic responses.