Ottimizzazione Accelerata delle Preferenze per l'Allineamento di Grandi Modelli Linguistici
Accelerated Preference Optimization for Large Language Model Alignment
October 8, 2024
Autori: Jiafan He, Huizhuo Yuan, Quanquan Gu
cs.AI
Abstract
L'apprendimento per rinforzo da feedback umano (RLHF) è emerso come uno strumento fondamentale per allineare i grandi modelli linguistici (LLM) con le preferenze umane. L'ottimizzazione diretta delle preferenze (DPO), uno degli approcci più popolari, formula RLHF come un problema di ottimizzazione della politica senza stimare esplicitamente la funzione di ricompensa. Supera i problemi di stabilità ed efficienza degli approcci a due fasi, che di solito coinvolgono prima la stima della funzione di ricompensa e poi l'ottimizzazione della politica tramite ottimizzazione della politica prossimale (PPO). Poiché RLHF è essenzialmente un problema di ottimizzazione ed è ben noto che le tecniche di momentum possono accelerare l'ottimizzazione sia teoricamente che empiricamente, sorge naturalmente una domanda: RLHF può essere accelerato dal momentum? Questo articolo risponde affermativamente a questa domanda. In dettaglio, mostriamo innanzitutto che il metodo iterativo di ottimizzazione delle preferenze può essere visto come un metodo di punto prossimale. Sulla base di questa osservazione, proponiamo un framework generale di Ottimizzazione delle Preferenze Accelerata (APO), che unifica molti algoritmi di ottimizzazione delle preferenze esistenti e utilizza la tecnica di momentum di Nesterov per accelerare l'allineamento dei LLM. Teoricamente, dimostriamo che APO può raggiungere un tasso di convergenza più veloce rispetto ai metodi standard di ottimizzazione delle preferenze iterativa, inclusi DPO e Ottimizzazione delle Preferenze di Gioco Autonomo (SPPO). Empiricamente, mostriamo la superiorità di APO rispetto a DPO, DPO iterativo e altri baselines solidi per RLHF sul benchmark AlpacaEval 2.0.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal
tool for aligning large language models (LLMs) with human preferences. Direct
Preference Optimization (DPO), one of the most popular approaches, formulates
RLHF as a policy optimization problem without explicitly estimating the reward
function. It overcomes the stability and efficiency issues of two-step
approaches, which typically involve first estimating the reward function and
then optimizing the policy via proximal policy optimization (PPO). Since RLHF
is essentially an optimization problem, and it is well-known that momentum
techniques can accelerate optimization both theoretically and empirically, a
natural question arises: Can RLHF be accelerated by momentum? This paper
answers this question in the affirmative. In detail, we first show that the
iterative preference optimization method can be viewed as a proximal point
method. Based on this observation, we propose a general Accelerated Preference
Optimization (APO) framework, which unifies many existing preference
optimization algorithms and employs Nesterov's momentum technique to speed up
the alignment of LLMs. Theoretically, we demonstrate that APO can achieve a
faster convergence rate than the standard iterative preference optimization
methods, including DPO and Self-Play Preference Optimization (SPPO).
Empirically, we show the superiority of APO over DPO, iterative DPO, and other
strong baselines for RLHF on the AlpacaEval 2.0 benchmark.