Em Direção à Compreensão da Síndrome de Sisonismo em Modelos de Linguagem
Towards Understanding Sycophancy in Language Models
October 20, 2023
Autores: Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez
cs.AI
Resumo
O aprendizado por reforço com feedback humano (RLHF) é uma técnica popular para treinar assistentes de IA de alta qualidade. No entanto, o RLHF também pode incentivar respostas do modelo que se alinham às crenças do usuário em vez de respostas verdadeiras, um comportamento conhecido como sicofância. Investigamos a prevalência da sicofância em modelos treinados com RLHF e se os julgamentos de preferência humana são responsáveis por isso. Primeiro, demonstramos que cinco assistentes de IA de última geração exibem consistentemente comportamento sicofântico em quatro tarefas variadas de geração de texto livre. Para entender se as preferências humanas impulsionam esse comportamento amplamente observado em modelos RLHF, analisamos dados existentes de preferência humana. Descobrimos que, quando uma resposta corresponde às visões de um usuário, é mais provável que seja preferida. Além disso, tanto humanos quanto modelos de preferência (PMs) preferem respostas sicofânticas convincentemente escritas em vez de respostas corretas em uma fração insignificante do tempo. Otimizar as saídas do modelo contra PMs também às vezes sacrifica a veracidade em favor da sicofância. No geral, nossos resultados indicam que a sicofância é um comportamento geral dos modelos RLHF, provavelmente impulsionado em parte por julgamentos de preferência humana que favorecem respostas sicofânticas.
English
Reinforcement learning from human feedback (RLHF) is a popular technique for
training high-quality AI assistants. However, RLHF may also encourage model
responses that match user beliefs over truthful responses, a behavior known as
sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models
and whether human preference judgements are responsible. We first demonstrate
that five state-of-the-art AI assistants consistently exhibit sycophantic
behavior across four varied free-form text-generation tasks. To understand if
human preferences drive this broadly observed behavior of RLHF models, we
analyze existing human preference data. We find that when a response matches a
user's views, it is more likely to be preferred. Moreover, both humans and
preference models (PMs) prefer convincingly-written sycophantic responses over
correct ones a negligible fraction of the time. Optimizing model outputs
against PMs also sometimes sacrifices truthfulness in favor of sycophancy.
Overall, our results indicate that sycophancy is a general behavior of RLHF
models, likely driven in part by human preference judgements favoring
sycophantic responses.