Прямая оптимизация Нэша: обучение языковых моделей самосовершенствованию с общими предпочтениями.

Аннотация

Данная статья исследует посттренировочные модели больших языковых моделей (Large Language Models, LLM), используя обратную связь предпочтений от мощного оракула для помощи модели в итеративном улучшении самой себя. Типичный подход к посттренировке LLM включает в себя обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF), который традиционно разделяет обучение наград и последующую оптимизацию политики. Однако такой подход максимизации наград ограничен характером "точечных" наград (например, модель Брэдли-Терри), что не позволяет выразить сложные интранзитивные или циклические предпочтения. В то время как прогресс в области RLHF показывает, что обучение наград и оптимизация политики могут быть объединены в единую контрастную цель для стабильности, они все еще остаются привязанными к каркасу максимизации наград. Недавно новая волна исследований обходит предположения о максимизации наград в пользу прямой оптимизации "парных" или общих предпочтений. В данной статье мы представляем прямую оптимизацию Нэша (Direct Nash Optimization, DNO), доказуемый и масштабируемый алгоритм, который сочетает в себе простоту и стабильность контрастного обучения с теоретической общностью при оптимизации общих предпочтений. Поскольку DNO является пакетным алгоритмом с онлайн-обучением, использующим целевую функцию на основе регрессии, его реализация проста и эффективна. Более того, DNO обеспечивает монотонное улучшение на протяжении итераций, что помогает ему улучшаться даже по сравнению с сильным учителем (например, GPT-4). В наших экспериментах полученная модель Orca-2.5 с 7 миллиардами параметров, выровненная с помощью DNO, достигает передового показателя победной доли в 33% против GPT-4-Turbo на AlpacaEval 2.0 (даже после коррекции на длину ответа), абсолютный прирост составляет 26% (с 7% до 33%) по сравнению с исходной моделью. Она превосходит модели с гораздо большим количеством параметров, включая Mistral Large, Self-Rewarding LM (70 миллиардов параметров) и более старые версии GPT-4.

English

This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.

Прямая оптимизация Нэша: обучение языковых моделей самосовершенствованию с общими предпочтениями.

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Аннотация

Support