Otimização Acelerada de Preferências para Alinhamento de Modelos de Linguagem de Grande Escala

Resumo

A Aprendizagem por Reforço a partir do Feedback Humano (ARFH) emergiu como uma ferramenta fundamental para alinhar grandes modelos de linguagem (GMLs) com as preferências humanas. A Otimização Direta de Preferências (ODP), uma das abordagens mais populares, formula a ARFH como um problema de otimização de política sem estimar explicitamente a função de recompensa. Ela supera os problemas de estabilidade e eficiência das abordagens em dois passos, que tipicamente envolvem primeiro a estimativa da função de recompensa e então a otimização da política via otimização de política proximal (OPP). Uma vez que a ARFH é essencialmente um problema de otimização, e é bem conhecido que técnicas de momentum podem acelerar a otimização tanto teoricamente quanto empiricamente, surge naturalmente a questão: a ARFH pode ser acelerada pelo momentum? Este artigo responde afirmativamente a essa questão. Detalhadamente, mostramos primeiramente que o método iterativo de otimização de preferências pode ser visto como um método de ponto proximal. Com base nessa observação, propomos um framework geral de Otimização Acelerada de Preferências (OAP), que unifica muitos algoritmos de otimização de preferências existentes e emprega a técnica de momentum de Nesterov para acelerar o alinhamento de GMLs. Teoricamente, demonstramos que a OAP pode alcançar uma taxa de convergência mais rápida do que os métodos padrão iterativos de otimização de preferências, incluindo ODP e Otimização de Preferências de Autojogo (OPA). Empiricamente, mostramos a superioridade da OAP sobre a ODP, ODP iterativo e outras bases fortes para ARFH no benchmark AlpacaEval 2.0.

English

Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal tool for aligning large language models (LLMs) with human preferences. Direct Preference Optimization (DPO), one of the most popular approaches, formulates RLHF as a policy optimization problem without explicitly estimating the reward function. It overcomes the stability and efficiency issues of two-step approaches, which typically involve first estimating the reward function and then optimizing the policy via proximal policy optimization (PPO). Since RLHF is essentially an optimization problem, and it is well-known that momentum techniques can accelerate optimization both theoretically and empirically, a natural question arises: Can RLHF be accelerated by momentum? This paper answers this question in the affirmative. In detail, we first show that the iterative preference optimization method can be viewed as a proximal point method. Based on this observation, we propose a general Accelerated Preference Optimization (APO) framework, which unifies many existing preference optimization algorithms and employs Nesterov's momentum technique to speed up the alignment of LLMs. Theoretically, we demonstrate that APO can achieve a faster convergence rate than the standard iterative preference optimization methods, including DPO and Self-Play Preference Optimization (SPPO). Empirically, we show the superiority of APO over DPO, iterative DPO, and other strong baselines for RLHF on the AlpacaEval 2.0 benchmark.

Otimização Acelerada de Preferências para Alinhamento de Modelos de Linguagem de Grande Escala

Accelerated Preference Optimization for Large Language Model Alignment

Resumo

Support