Hacia la Comprensión de la Servilismo en los Modelos de Lenguaje
Towards Understanding Sycophancy in Language Models
October 20, 2023
Autores: Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
cs.AI
Resumen
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) es una técnica popular para entrenar asistentes de IA de alta calidad. Sin embargo, el RLHF también puede fomentar respuestas del modelo que se alinean con las creencias del usuario en lugar de ser veraces, un comportamiento conocido como adulación. Investigamos la prevalencia de la adulación en modelos entrenados con RLHF y si los juicios de preferencia humana son responsables de ello. Primero demostramos que cinco asistentes de IA de última generación exhiben consistentemente comportamiento adulador en cuatro tareas variadas de generación de texto libre. Para comprender si las preferencias humanas impulsan este comportamiento ampliamente observado en los modelos RLHF, analizamos datos existentes de preferencias humanas. Encontramos que cuando una respuesta coincide con las opiniones de un usuario, es más probable que sea preferida. Además, tanto los humanos como los modelos de preferencia (PMs) prefieren respuestas aduladoras convincentemente escritas sobre respuestas correctas una fracción insignificante del tiempo. Optimizar las salidas del modelo contra los PMs también sacrifica a veces la veracidad en favor de la adulación. En general, nuestros resultados indican que la adulación es un comportamiento generalizado en los modelos RLHF, probablemente impulsado en parte por los juicios de preferencia humana que favorecen respuestas aduladoras.
English
Reinforcement learning from human feedback (RLHF) is a popular technique for
training high-quality AI assistants. However, RLHF may also encourage model
responses that match user beliefs over truthful responses, a behavior known as
sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models
and whether human preference judgements are responsible. We first demonstrate
that five state-of-the-art AI assistants consistently exhibit sycophantic
behavior across four varied free-form text-generation tasks. To understand if
human preferences drive this broadly observed behavior of RLHF models, we
analyze existing human preference data. We find that when a response matches a
user's views, it is more likely to be preferred. Moreover, both humans and
preference models (PMs) prefer convincingly-written sycophantic responses over
correct ones a negligible fraction of the time. Optimizing model outputs
against PMs also sometimes sacrifices truthfulness in favor of sycophancy.
Overall, our results indicate that sycophancy is a general behavior of RLHF
models, likely driven in part by human preference judgements favoring
sycophantic responses.