Beschleunigte Präferenzoptimierung für die Ausrichtung großer Sprachmodell.
Accelerated Preference Optimization for Large Language Model Alignment
October 8, 2024
Autoren: Jiafan He, Huizhuo Yuan, Quanquan Gu
cs.AI
Zusammenfassung
Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) hat sich als entscheidendes Werkzeug zur Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen herausgestellt. Die Direkte Präferenzoptimierung (DPO), einer der beliebtesten Ansätze, formuliert RLHF als ein Problem der Richtlinienoptimierung, ohne die Belohnungsfunktion explizit zu schätzen. Sie überwindet die Stabilitäts- und Effizienzprobleme von Zwei-Schritt-Ansätzen, die typischerweise zunächst die Belohnungsfunktion schätzen und dann die Richtlinie über die Proximal Policy Optimization (PPO) optimieren. Da RLHF im Wesentlichen ein Optimierungsproblem darstellt und bekannt ist, dass Momentum-Techniken die Optimierung sowohl theoretisch als auch empirisch beschleunigen können, stellt sich eine natürliche Frage: Kann RLHF durch Momentum beschleunigt werden? Dieses Papier beantwortet diese Frage bejahend. Im Detail zeigen wir zunächst, dass die iterative Präferenzoptimierungsmethode als proximaler Punktansatz betrachtet werden kann. Basierend auf dieser Beobachtung schlagen wir ein allgemeines Beschleunigtes Präferenzoptimierungs (APO) Rahmenwerk vor, das viele bestehende Präferenzoptimierungsalgorithmen vereint und die Nesterov-Momentum-Technik einsetzt, um die Ausrichtung von LLMs zu beschleunigen. Theoretisch zeigen wir, dass APO eine schnellere Konvergenzrate als die standardmäßigen iterativen Präferenzoptimierungsmethoden erreichen kann, einschließlich DPO und Selbstspiel-Präferenzoptimierung (SPPO). Empirisch zeigen wir die Überlegenheit von APO gegenüber DPO, iterativem DPO und anderen starken Baselines für RLHF im AlpacaEval 2.0 Benchmark.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal
tool for aligning large language models (LLMs) with human preferences. Direct
Preference Optimization (DPO), one of the most popular approaches, formulates
RLHF as a policy optimization problem without explicitly estimating the reward
function. It overcomes the stability and efficiency issues of two-step
approaches, which typically involve first estimating the reward function and
then optimizing the policy via proximal policy optimization (PPO). Since RLHF
is essentially an optimization problem, and it is well-known that momentum
techniques can accelerate optimization both theoretically and empirically, a
natural question arises: Can RLHF be accelerated by momentum? This paper
answers this question in the affirmative. In detail, we first show that the
iterative preference optimization method can be viewed as a proximal point
method. Based on this observation, we propose a general Accelerated Preference
Optimization (APO) framework, which unifies many existing preference
optimization algorithms and employs Nesterov's momentum technique to speed up
the alignment of LLMs. Theoretically, we demonstrate that APO can achieve a
faster convergence rate than the standard iterative preference optimization
methods, including DPO and Self-Play Preference Optimization (SPPO).
Empirically, we show the superiority of APO over DPO, iterative DPO, and other
strong baselines for RLHF on the AlpacaEval 2.0 benchmark.Summary
AI-Generated Summary