Самообучающиеся языковые модели
Self-Rewarding Language Models
January 18, 2024
Авторы: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston
cs.AI
Аннотация
Мы предполагаем, что для создания сверхчеловеческих агентов будущие модели требуют сверхчеловеческой обратной связи, чтобы обеспечить адекватный обучающий сигнал. Современные подходы обычно обучают модели вознаграждения на основе человеческих предпочтений, что может ограничиваться уровнем человеческой производительности, а также эти отдельные замороженные модели вознаграждения не могут улучшаться в процессе обучения языковых моделей (LLM). В данной работе мы исследуем самовознаграждающиеся языковые модели, где сама языковая модель используется через подход LLM-as-a-Judge для предоставления собственных вознаграждений в процессе обучения. Мы показываем, что в ходе итеративного обучения с использованием DPO (Direct Preference Optimization) не только улучшается способность следовать инструкциям, но и способность модели предоставлять высококачественные вознаграждения самой себе. Тонкая настройка модели Llama 2 70B на трех итерациях нашего подхода приводит к модели, которая превосходит многие существующие системы на лидерборде AlpacaEval 2.0, включая Claude 2, Gemini Pro и GPT-4 0613. Хотя это лишь предварительное исследование, данная работа открывает возможность создания моделей, которые могут непрерывно улучшаться по обоим направлениям.
English
We posit that to achieve superhuman agents, future models require superhuman
feedback in order to provide an adequate training signal. Current approaches
commonly train reward models from human preferences, which may then be
bottlenecked by human performance level, and secondly these separate frozen
reward models cannot then learn to improve during LLM training. In this work,
we study Self-Rewarding Language Models, where the language model itself is
used via LLM-as-a-Judge prompting to provide its own rewards during training.
We show that during Iterative DPO training that not only does instruction
following ability improve, but also the ability to provide high-quality rewards
to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a
model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard,
including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study,
this work opens the door to the possibility of models that can continually
improve in both axes.