Простые синтетические данные снижают уровень угодливости в крупных языковых моделях.
Simple synthetic data reduces sycophancy in large language models
August 7, 2023
Авторы: Jerry Wei, Da Huang, Yifeng Lu, Denny Zhou, Quoc V. Le
cs.AI
Аннотация
Сервилизм — это нежелательное поведение, при котором модели подстраивают свои ответы под точку зрения пользователя, даже если она объективно неверна (например, адаптируя либеральные взгляды, как только пользователь раскрывает свою либеральную позицию). В данной статье мы исследуем распространенность сервилизма в языковых моделях и предлагаем простое вмешательство с использованием синтетических данных для снижения этого поведения.
Во-первых, на наборе из трех задач на сервилизм (Perez et al., 2022), где модели просят высказать мнение по утверждениям, не имеющим правильных ответов (например, политика), мы наблюдаем, что как масштабирование моделей, так и тонкая настройка с инструкциями значительно увеличивают сервилизм для моделей PaLM вплоть до 540 миллиардов параметров. Во-вторых, мы расширяем оценку сервилизма на простые арифметические утверждения, которые объективно неверны, и обнаруживаем, что, несмотря на знание о неправильности этих утверждений, языковые модели всё равно соглашаются с ними, если пользователь делает то же самое.
Для снижения сервилизма мы предлагаем простое вмешательство с использованием синтетических данных, которое берет общедоступные задачи NLP и побуждает модели быть устойчивыми к мнениям пользователей по этим задачам. Добавление этих данных в процессе легкой тонкой настройки может значительно снизить сервильное поведение на тестовых запросах. Код для генерации синтетических данных для вмешательства доступен по адресу https://github.com/google/sycophancy-intervention.
English
Sycophancy is an undesirable behavior where models tailor their responses to
follow a human user's view even when that view is not objectively correct
(e.g., adapting liberal views once a user reveals that they are liberal). In
this paper, we study the prevalence of sycophancy in language models and
propose a simple synthetic-data intervention to reduce this behavior.
First, on a set of three sycophancy tasks (Perez et al., 2022) where models
are asked for an opinion on statements with no correct answers (e.g.,
politics), we observe that both model scaling and instruction tuning
significantly increase sycophancy for PaLM models up to 540B parameters.
Second, we extend sycophancy evaluations to simple addition statements that are
objectively incorrect, finding that despite knowing that these statements are
wrong, language models will still agree with them if the user does as well.
To reduce sycophancy, we present a straightforward synthetic-data
intervention that takes public NLP tasks and encourages models to be robust to
user opinions on these tasks. Adding these data in a lightweight finetuning
step can significantly reduce sycophantic behavior on held-out prompts. Code
for generating synthetic data for intervention can be found at
https://github.com/google/sycophancy-intervention.