Прямая оптимизация Нэша: обучение языковых моделей самосовершенствованию с общими предпочтениями.Direct Nash Optimization: Teaching Language Models to Self-Improve with
General Preferences
Данная статья исследует посттренировочные модели больших языковых моделей (Large Language Models, LLM), используя обратную связь предпочтений от мощного оракула для помощи модели в итеративном улучшении самой себя. Типичный подход к посттренировке LLM включает в себя обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF), который традиционно разделяет обучение наград и последующую оптимизацию политики. Однако такой подход максимизации наград ограничен характером "точечных" наград (например, модель Брэдли-Терри), что не позволяет выразить сложные интранзитивные или циклические предпочтения. В то время как прогресс в области RLHF показывает, что обучение наград и оптимизация политики могут быть объединены в единую контрастную цель для стабильности, они все еще остаются привязанными к каркасу максимизации наград. Недавно новая волна исследований обходит предположения о максимизации наград в пользу прямой оптимизации "парных" или общих предпочтений. В данной статье мы представляем прямую оптимизацию Нэша (Direct Nash Optimization, DNO), доказуемый и масштабируемый алгоритм, который сочетает в себе простоту и стабильность контрастного обучения с теоретической общностью при оптимизации общих предпочтений. Поскольку DNO является пакетным алгоритмом с онлайн-обучением, использующим целевую функцию на основе регрессии, его реализация проста и эффективна. Более того, DNO обеспечивает монотонное улучшение на протяжении итераций, что помогает ему улучшаться даже по сравнению с сильным учителем (например, GPT-4). В наших экспериментах полученная модель Orca-2.5 с 7 миллиардами параметров, выровненная с помощью DNO, достигает передового показателя победной доли в 33% против GPT-4-Turbo на AlpacaEval 2.0 (даже после коррекции на длину ответа), абсолютный прирост составляет 26% (с 7% до 33%) по сравнению с исходной моделью. Она превосходит модели с гораздо большим количеством параметров, включая Mistral Large, Self-Rewarding LM (70 миллиардов параметров) и более старые версии GPT-4.