Versnelde Voorkeursoptimalisatie voor het Afstemmen van Grote Taalmodellen
Accelerated Preference Optimization for Large Language Model Alignment
October 8, 2024
Auteurs: Jiafan He, Huizhuo Yuan, Quanquan Gu
cs.AI
Samenvatting
Reinforcement Learning from Human Feedback (RLHF) is opgekomen als een cruciaal instrument voor het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren. Directe Voorkeursoptimalisatie (DPO), een van de meest populaire benaderingen, formuleert RLHF als een beleidsoptimalisatieprobleem zonder expliciete schatting van de beloningsfunctie. Het overwint de stabiliteits- en efficiëntieproblemen van tweestapsbenaderingen, die doorgaans eerst de beloningsfunctie schatten en vervolgens het beleid optimaliseren via proximale beleidsoptimalisatie (PPO). Aangezien RLHF in wezen een optimalisatieprobleem is, en het bekend is dat momentumtechnieken optimalisatie zowel theoretisch als empirisch kunnen versnellen, rijst een natuurlijke vraag: Kan RLHF worden versneld door momentum? Dit artikel beantwoordt deze vraag bevestigend. In detail tonen we eerst aan dat de iteratieve voorkeursoptimalisatiemethode kan worden beschouwd als een proximaal puntmethode. Op basis van deze observatie stellen we een algemeen Accelerated Preference Optimization (APO) framework voor, dat veel bestaande voorkeursoptimalisatiealgoritmen verenigt en de momentumtechniek van Nesterov gebruikt om de afstemming van LLM's te versnellen. Theoretisch tonen we aan dat APO een snellere convergentiesnelheid kan bereiken dan de standaard iteratieve voorkeursoptimalisatiemethoden, waaronder DPO en Self-Play Preference Optimization (SPPO). Empirisch tonen we de superioriteit van APO ten opzichte van DPO, iteratieve DPO en andere sterke baselines voor RLHF op de AlpacaEval 2.0 benchmark.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal
tool for aligning large language models (LLMs) with human preferences. Direct
Preference Optimization (DPO), one of the most popular approaches, formulates
RLHF as a policy optimization problem without explicitly estimating the reward
function. It overcomes the stability and efficiency issues of two-step
approaches, which typically involve first estimating the reward function and
then optimizing the policy via proximal policy optimization (PPO). Since RLHF
is essentially an optimization problem, and it is well-known that momentum
techniques can accelerate optimization both theoretically and empirically, a
natural question arises: Can RLHF be accelerated by momentum? This paper
answers this question in the affirmative. In detail, we first show that the
iterative preference optimization method can be viewed as a proximal point
method. Based on this observation, we propose a general Accelerated Preference
Optimization (APO) framework, which unifies many existing preference
optimization algorithms and employs Nesterov's momentum technique to speed up
the alignment of LLMs. Theoretically, we demonstrate that APO can achieve a
faster convergence rate than the standard iterative preference optimization
methods, including DPO and Self-Play Preference Optimization (SPPO).
Empirically, we show the superiority of APO over DPO, iterative DPO, and other
strong baselines for RLHF on the AlpacaEval 2.0 benchmark.Summary
AI-Generated Summary