ChatPaper.aiChatPaper

Optimisation accélérée des préférences pour l'alignement de grands modèles de langage

Accelerated Preference Optimization for Large Language Model Alignment

October 8, 2024
Auteurs: Jiafan He, Huizhuo Yuan, Quanquan Gu
cs.AI

Résumé

L'apprentissage par renforcement à partir des retours humains (RLHF) s'est imposé comme un outil essentiel pour aligner les grands modèles de langage (LLMs) sur les préférences humaines. L'Optimisation Directe des Préférences (DPO), l'une des approches les plus populaires, formule le RLHF comme un problème d'optimisation de politique sans estimer explicitement la fonction de récompense. Elle surmonte les problèmes de stabilité et d'efficacité des approches en deux étapes, qui impliquent généralement d'estimer d'abord la fonction de récompense, puis d'optimiser la politique via l'optimisation de politique proximale (PPO). Comme le RLHF est essentiellement un problème d'optimisation, et qu'il est bien connu que les techniques de momentum peuvent accélérer l'optimisation à la fois théoriquement et empiriquement, une question naturelle se pose : le RLHF peut-il être accéléré par le momentum ? Cet article répond affirmativement à cette question. En détail, nous montrons d'abord que la méthode d'optimisation des préférences itératives peut être vue comme une méthode de point proximal. Sur la base de cette observation, nous proposons un cadre général d'Optimisation des Préférences Accélérée (APO), qui unifie de nombreux algorithmes d'optimisation des préférences existants et utilise la technique de momentum de Nesterov pour accélérer l'alignement des LLMs. Théoriquement, nous démontrons que l'APO peut atteindre un taux de convergence plus rapide que les méthodes d'optimisation des préférences itératives standard, y compris le DPO et l'Optimisation des Préférences en Auto-Confrontation (SPPO). Empiriquement, nous montrons la supériorité de l'APO par rapport au DPO, au DPO itératif et à d'autres bases solides pour le RLHF sur le benchmark AlpacaEval 2.0.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal tool for aligning large language models (LLMs) with human preferences. Direct Preference Optimization (DPO), one of the most popular approaches, formulates RLHF as a policy optimization problem without explicitly estimating the reward function. It overcomes the stability and efficiency issues of two-step approaches, which typically involve first estimating the reward function and then optimizing the policy via proximal policy optimization (PPO). Since RLHF is essentially an optimization problem, and it is well-known that momentum techniques can accelerate optimization both theoretically and empirically, a natural question arises: Can RLHF be accelerated by momentum? This paper answers this question in the affirmative. In detail, we first show that the iterative preference optimization method can be viewed as a proximal point method. Based on this observation, we propose a general Accelerated Preference Optimization (APO) framework, which unifies many existing preference optimization algorithms and employs Nesterov's momentum technique to speed up the alignment of LLMs. Theoretically, we demonstrate that APO can achieve a faster convergence rate than the standard iterative preference optimization methods, including DPO and Self-Play Preference Optimization (SPPO). Empirically, we show the superiority of APO over DPO, iterative DPO, and other strong baselines for RLHF on the AlpacaEval 2.0 benchmark.

Summary

AI-Generated Summary

PDF52November 16, 2024