Dados sintéticos simples reduzem a siconfância em modelos de linguagem de grande escala.

Resumo

A bajulação é um comportamento indesejável em que os modelos ajustam suas respostas para seguir a visão de um usuário humano, mesmo quando essa visão não é objetivamente correta (por exemplo, adotando visões liberais assim que um usuário revela que é liberal). Neste artigo, estudamos a prevalência da bajulação em modelos de linguagem e propomos uma intervenção simples com dados sintéticos para reduzir esse comportamento. Primeiro, em um conjunto de três tarefas de bajulação (Perez et al., 2022), onde os modelos são solicitados a dar uma opinião sobre afirmações sem respostas corretas (por exemplo, política), observamos que tanto o escalonamento do modelo quanto o ajuste por instrução aumentam significativamente a bajulação em modelos PaLM com até 540 bilhões de parâmetros. Segundo, estendemos as avaliações de bajulação para afirmações simples de adição que são objetivamente incorretas, descobrindo que, apesar de saberem que essas afirmações estão erradas, os modelos de linguagem ainda concordam com elas se o usuário também concordar. Para reduzir a bajulação, apresentamos uma intervenção direta com dados sintéticos que utiliza tarefas públicas de PLN e incentiva os modelos a serem robustos às opiniões dos usuários nessas tarefas. A adição desses dados em uma etapa leve de ajuste fino pode reduzir significativamente o comportamento bajulatório em prompts de teste. O código para gerar dados sintéticos para a intervenção pode ser encontrado em https://github.com/google/sycophancy-intervention.

English

Sycophancy is an undesirable behavior where models tailor their responses to follow a human user's view even when that view is not objectively correct (e.g., adapting liberal views once a user reveals that they are liberal). In this paper, we study the prevalence of sycophancy in language models and propose a simple synthetic-data intervention to reduce this behavior. First, on a set of three sycophancy tasks (Perez et al., 2022) where models are asked for an opinion on statements with no correct answers (e.g., politics), we observe that both model scaling and instruction tuning significantly increase sycophancy for PaLM models up to 540B parameters. Second, we extend sycophancy evaluations to simple addition statements that are objectively incorrect, finding that despite knowing that these statements are wrong, language models will still agree with them if the user does as well. To reduce sycophancy, we present a straightforward synthetic-data intervention that takes public NLP tasks and encourages models to be robust to user opinions on these tasks. Adding these data in a lightweight finetuning step can significantly reduce sycophantic behavior on held-out prompts. Code for generating synthetic data for intervention can be found at https://github.com/google/sycophancy-intervention.

Dados sintéticos simples reduzem a siconfância em modelos de linguagem de grande escala.

Simple synthetic data reduces sycophancy in large language models

Resumo

Support