Optimisation Directe de Nash : Enseigner aux Modèles de Langage à s'Améliorer par eux-mêmes avec des Préférences Générales
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences
April 4, 2024
Auteurs: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie
cs.AI
Résumé
Cet article étudie le post-entraînement des grands modèles de langage (LLMs) en utilisant des retours de préférence provenant d'un oracle puissant pour aider un modèle à s'améliorer de manière itérative. L'approche typique pour le post-entraînement des LLMs implique l'apprentissage par renforcement à partir de retours humains (RLHF), qui sépare traditionnellement l'apprentissage de la récompense et l'optimisation ultérieure de la politique. Cependant, une telle approche de maximisation de la récompense est limitée par la nature des récompenses "ponctuelles" (comme le modèle de Bradley-Terry), qui ne parviennent pas à exprimer des relations de préférence complexes, intransitives ou cycliques. Bien que les avancées en RLHF montrent que l'apprentissage de la récompense et l'optimisation de la politique peuvent être fusionnés en un objectif contrastif unique pour plus de stabilité, elles restent néanmoins ancrées dans le cadre de la maximisation de la récompense. Récemment, une nouvelle vague de recherche contourne les présomptions de maximisation de la récompense en faveur d'une optimisation directe sur des préférences "par paires" ou générales. Dans cet article, nous introduisons l'Optimisation Directe de Nash (DNO), un algorithme prouvable et scalable qui combine la simplicité et la stabilité de l'apprentissage contrastif avec la généralité théorique de l'optimisation des préférences générales. Comme DNO est un algorithme par lots sur politique utilisant un objectif basé sur la régression, son implémentation est simple et efficace. De plus, DNO bénéficie d'une amélioration monotone au fil des itérations, ce qui l'aide à s'améliorer même par rapport à un enseignant puissant (comme GPT-4). Dans nos expériences, un modèle Orca-2.5 de 7 milliards de paramètres aligné par DNO atteint un taux de victoire de pointe de 33 % contre GPT-4-Turbo sur AlpacaEval 2.0 (même après contrôle de la longueur des réponses), un gain absolu de 26 % (de 7 % à 33 %) par rapport au modèle initial. Il surpasse des modèles avec bien plus de paramètres, notamment Mistral Large, Self-Rewarding LM (70 milliards de paramètres) et les versions antérieures de GPT-4.
English
This paper studies post-training large language models (LLMs) using
preference feedback from a powerful oracle to help a model iteratively improve
over itself. The typical approach for post-training LLMs involves Reinforcement
Learning from Human Feedback (RLHF), which traditionally separates reward
learning and subsequent policy optimization. However, such a reward
maximization approach is limited by the nature of "point-wise" rewards (such as
Bradley-Terry model), which fails to express complex intransitive or cyclic
preference relations. While advances on RLHF show reward learning and policy
optimization can be merged into a single contrastive objective for stability,
they yet still remain tethered to the reward maximization framework. Recently,
a new wave of research sidesteps the reward maximization presumptions in favor
of directly optimizing over "pair-wise" or general preferences. In this paper,
we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm
that marries the simplicity and stability of contrastive learning with
theoretical generality from optimizing general preferences. Because DNO is a
batched on-policy algorithm using a regression-based objective, its
implementation is straightforward and efficient. Moreover, DNO enjoys monotonic
improvement across iterations that help it improve even over a strong teacher
(such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model
aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of
33% on AlpacaEval 2.0 (even after controlling for response length), an absolute
gain of 26% (7% to 33%) over the initializing model. It outperforms models with
far more parameters, including Mistral Large, Self-Rewarding LM (70B
parameters), and older versions of GPT-4.Summary
AI-Generated Summary