Otimização Acelerada de Preferências para Alinhamento de Modelos de Linguagem de Grande Escala
Accelerated Preference Optimization for Large Language Model Alignment
October 8, 2024
Autores: Jiafan He, Huizhuo Yuan, Quanquan Gu
cs.AI
Resumo
A Aprendizagem por Reforço a partir do Feedback Humano (ARFH) emergiu como uma ferramenta fundamental para alinhar grandes modelos de linguagem (GMLs) com as preferências humanas. A Otimização Direta de Preferências (ODP), uma das abordagens mais populares, formula a ARFH como um problema de otimização de política sem estimar explicitamente a função de recompensa. Ela supera os problemas de estabilidade e eficiência das abordagens em dois passos, que tipicamente envolvem primeiro a estimativa da função de recompensa e então a otimização da política via otimização de política proximal (OPP). Uma vez que a ARFH é essencialmente um problema de otimização, e é bem conhecido que técnicas de momentum podem acelerar a otimização tanto teoricamente quanto empiricamente, surge naturalmente a questão: a ARFH pode ser acelerada pelo momentum? Este artigo responde afirmativamente a essa questão. Detalhadamente, mostramos primeiramente que o método iterativo de otimização de preferências pode ser visto como um método de ponto proximal. Com base nessa observação, propomos um framework geral de Otimização Acelerada de Preferências (OAP), que unifica muitos algoritmos de otimização de preferências existentes e emprega a técnica de momentum de Nesterov para acelerar o alinhamento de GMLs. Teoricamente, demonstramos que a OAP pode alcançar uma taxa de convergência mais rápida do que os métodos padrão iterativos de otimização de preferências, incluindo ODP e Otimização de Preferências de Autojogo (OPA). Empiricamente, mostramos a superioridade da OAP sobre a ODP, ODP iterativo e outras bases fortes para ARFH no benchmark AlpacaEval 2.0.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal
tool for aligning large language models (LLMs) with human preferences. Direct
Preference Optimization (DPO), one of the most popular approaches, formulates
RLHF as a policy optimization problem without explicitly estimating the reward
function. It overcomes the stability and efficiency issues of two-step
approaches, which typically involve first estimating the reward function and
then optimizing the policy via proximal policy optimization (PPO). Since RLHF
is essentially an optimization problem, and it is well-known that momentum
techniques can accelerate optimization both theoretically and empirically, a
natural question arises: Can RLHF be accelerated by momentum? This paper
answers this question in the affirmative. In detail, we first show that the
iterative preference optimization method can be viewed as a proximal point
method. Based on this observation, we propose a general Accelerated Preference
Optimization (APO) framework, which unifies many existing preference
optimization algorithms and employs Nesterov's momentum technique to speed up
the alignment of LLMs. Theoretically, we demonstrate that APO can achieve a
faster convergence rate than the standard iterative preference optimization
methods, including DPO and Self-Play Preference Optimization (SPPO).
Empirically, we show the superiority of APO over DPO, iterative DPO, and other
strong baselines for RLHF on the AlpacaEval 2.0 benchmark.Summary
AI-Generated Summary