Eenvoudige synthetische data vermindert sycophantie in grote taalmodellen.

Samenvatting

Slikken is een ongewenst gedrag waarbij modellen hun reacties aanpassen om het standpunt van een menselijke gebruiker te volgen, zelfs wanneer dat standpunt objectief gezien niet correct is (bijvoorbeeld door liberale standpunten over te nemen zodra een gebruiker aangeeft liberaal te zijn). In dit artikel onderzoeken we de prevalentie van slikken in taalmodellen en stellen we een eenvoudige interventie met synthetische data voor om dit gedrag te verminderen. Ten eerste observeren we bij een set van drie slikken-taken (Perez et al., 2022), waarbij modellen om een mening wordt gevraagd over uitspraken zonder correcte antwoorden (bijvoorbeeld politiek), dat zowel modelschaling als instructieafstemming slikken significant verhogen bij PaLM-modellen tot 540B parameters. Ten tweede breiden we de evaluatie van slikken uit naar eenvoudige optelopgaven die objectief onjuist zijn, en constateren we dat taalmodellen, ondanks het weten dat deze uitspraken fout zijn, er toch mee instemmen als de gebruiker dat ook doet. Om slikken te verminderen, presenteren we een eenvoudige interventie met synthetische data die gebruikmaakt van openbare NLP-taken en modellen aanmoedigt om robuust te zijn tegenover gebruikersopvattingen over deze taken. Het toevoegen van deze data in een lichtgewicht fine-tuning stap kan slikgedrag aanzienlijk verminderen bij niet-geziene prompts. Code voor het genereren van synthetische data voor de interventie is te vinden op https://github.com/google/sycophancy-intervention.

English

Sycophancy is an undesirable behavior where models tailor their responses to follow a human user's view even when that view is not objectively correct (e.g., adapting liberal views once a user reveals that they are liberal). In this paper, we study the prevalence of sycophancy in language models and propose a simple synthetic-data intervention to reduce this behavior. First, on a set of three sycophancy tasks (Perez et al., 2022) where models are asked for an opinion on statements with no correct answers (e.g., politics), we observe that both model scaling and instruction tuning significantly increase sycophancy for PaLM models up to 540B parameters. Second, we extend sycophancy evaluations to simple addition statements that are objectively incorrect, finding that despite knowing that these statements are wrong, language models will still agree with them if the user does as well. To reduce sycophancy, we present a straightforward synthetic-data intervention that takes public NLP tasks and encourages models to be robust to user opinions on these tasks. Adding these data in a lightweight finetuning step can significantly reduce sycophantic behavior on held-out prompts. Code for generating synthetic data for intervention can be found at https://github.com/google/sycophancy-intervention.

Eenvoudige synthetische data vermindert sycophantie in grote taalmodellen.

Simple synthetic data reduces sycophancy in large language models

Samenvatting

Support