Прямая оптимизация Нэша: обучение языковых моделей самосовершенствованию с общими предпочтениями.
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences
April 4, 2024
Авторы: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie
cs.AI
Аннотация
Данная статья исследует посттренировочные модели больших языковых моделей (Large Language Models, LLM), используя обратную связь предпочтений от мощного оракула для помощи модели в итеративном улучшении самой себя. Типичный подход к посттренировке LLM включает в себя обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF), который традиционно разделяет обучение наград и последующую оптимизацию политики. Однако такой подход максимизации наград ограничен характером "точечных" наград (например, модель Брэдли-Терри), что не позволяет выразить сложные интранзитивные или циклические предпочтения. В то время как прогресс в области RLHF показывает, что обучение наград и оптимизация политики могут быть объединены в единую контрастную цель для стабильности, они все еще остаются привязанными к каркасу максимизации наград. Недавно новая волна исследований обходит предположения о максимизации наград в пользу прямой оптимизации "парных" или общих предпочтений. В данной статье мы представляем прямую оптимизацию Нэша (Direct Nash Optimization, DNO), доказуемый и масштабируемый алгоритм, который сочетает в себе простоту и стабильность контрастного обучения с теоретической общностью при оптимизации общих предпочтений. Поскольку DNO является пакетным алгоритмом с онлайн-обучением, использующим целевую функцию на основе регрессии, его реализация проста и эффективна. Более того, DNO обеспечивает монотонное улучшение на протяжении итераций, что помогает ему улучшаться даже по сравнению с сильным учителем (например, GPT-4). В наших экспериментах полученная модель Orca-2.5 с 7 миллиардами параметров, выровненная с помощью DNO, достигает передового показателя победной доли в 33% против GPT-4-Turbo на AlpacaEval 2.0 (даже после коррекции на длину ответа), абсолютный прирост составляет 26% (с 7% до 33%) по сравнению с исходной моделью. Она превосходит модели с гораздо большим количеством параметров, включая Mistral Large, Self-Rewarding LM (70 миллиардов параметров) и более старые версии GPT-4.
English
This paper studies post-training large language models (LLMs) using
preference feedback from a powerful oracle to help a model iteratively improve
over itself. The typical approach for post-training LLMs involves Reinforcement
Learning from Human Feedback (RLHF), which traditionally separates reward
learning and subsequent policy optimization. However, such a reward
maximization approach is limited by the nature of "point-wise" rewards (such as
Bradley-Terry model), which fails to express complex intransitive or cyclic
preference relations. While advances on RLHF show reward learning and policy
optimization can be merged into a single contrastive objective for stability,
they yet still remain tethered to the reward maximization framework. Recently,
a new wave of research sidesteps the reward maximization presumptions in favor
of directly optimizing over "pair-wise" or general preferences. In this paper,
we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm
that marries the simplicity and stability of contrastive learning with
theoretical generality from optimizing general preferences. Because DNO is a
batched on-policy algorithm using a regression-based objective, its
implementation is straightforward and efficient. Moreover, DNO enjoys monotonic
improvement across iterations that help it improve even over a strong teacher
(such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model
aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of
33% on AlpacaEval 2.0 (even after controlling for response length), an absolute
gain of 26% (7% to 33%) over the initializing model. It outperforms models with
far more parameters, including Mistral Large, Self-Rewarding LM (70B
parameters), and older versions of GPT-4.Summary
AI-Generated Summary