Ускоренная оптимизация предпочтений для выравнивания больших языковых моделей.
Accelerated Preference Optimization for Large Language Model Alignment
October 8, 2024
Авторы: Jiafan He, Huizhuo Yuan, Quanquan Gu
cs.AI
Аннотация
Обучение с подкреплением на основе обратной связи от человека (RLHF) стало ключевым инструментом для согласования больших языковых моделей (LLM) с предпочтениями человека. Прямая оптимизация предпочтений (DPO), один из наиболее популярных подходов, формулирует RLHF как проблему оптимизации политики без явной оценки функции вознаграждения. Он преодолевает проблемы стабильности и эффективности двухэтапных подходов, которые обычно включают в себя сначала оценку функции вознаграждения, а затем оптимизацию политики с помощью метода оптимизации ближайшей политики (PPO). Поскольку RLHF по сути является проблемой оптимизации, и хорошо известно, что техники импульса могут ускорить оптимизацию как теоретически, так и эмпирически, возникает естественный вопрос: можно ли ускорить RLHF с помощью импульса? Настоящая статья утвердительно отвечает на этот вопрос. В частности, мы сначала показываем, что итеративный метод оптимизации предпочтений можно рассматривать как метод ближайшей точки. Основываясь на этом наблюдении, мы предлагаем общую структуру Ускоренной Оптимизации Предпочтений (APO), которая объединяет множество существующих алгоритмов оптимизации предпочтений и использует технику импульса Нестерова для ускорения согласования LLM. Теоретически мы демонстрируем, что APO может достичь более быстрого темпа сходимости, чем стандартные итеративные методы оптимизации предпочтений, включая DPO и Оптимизацию Предпочтений Самостоятельной Игры (SPPO). Эмпирически мы демонстрируем превосходство APO над DPO, итеративным DPO и другими сильными базовыми вариантами для RLHF на тесте AlpacaEval 2.0.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal
tool for aligning large language models (LLMs) with human preferences. Direct
Preference Optimization (DPO), one of the most popular approaches, formulates
RLHF as a policy optimization problem without explicitly estimating the reward
function. It overcomes the stability and efficiency issues of two-step
approaches, which typically involve first estimating the reward function and
then optimizing the policy via proximal policy optimization (PPO). Since RLHF
is essentially an optimization problem, and it is well-known that momentum
techniques can accelerate optimization both theoretically and empirically, a
natural question arises: Can RLHF be accelerated by momentum? This paper
answers this question in the affirmative. In detail, we first show that the
iterative preference optimization method can be viewed as a proximal point
method. Based on this observation, we propose a general Accelerated Preference
Optimization (APO) framework, which unifies many existing preference
optimization algorithms and employs Nesterov's momentum technique to speed up
the alignment of LLMs. Theoretically, we demonstrate that APO can achieve a
faster convergence rate than the standard iterative preference optimization
methods, including DPO and Self-Play Preference Optimization (SPPO).
Empirically, we show the superiority of APO over DPO, iterative DPO, and other
strong baselines for RLHF on the AlpacaEval 2.0 benchmark.Summary
AI-Generated Summary