Optimisation Directe de Nash : Enseigner aux Modèles de Langage à s'Améliorer par eux-mêmes avec des Préférences Générales

papers.abstract

Cet article étudie le post-entraînement des grands modèles de langage (LLMs) en utilisant des retours de préférence provenant d'un oracle puissant pour aider un modèle à s'améliorer de manière itérative. L'approche typique pour le post-entraînement des LLMs implique l'apprentissage par renforcement à partir de retours humains (RLHF), qui sépare traditionnellement l'apprentissage de la récompense et l'optimisation ultérieure de la politique. Cependant, une telle approche de maximisation de la récompense est limitée par la nature des récompenses "ponctuelles" (comme le modèle de Bradley-Terry), qui ne parviennent pas à exprimer des relations de préférence complexes, intransitives ou cycliques. Bien que les avancées en RLHF montrent que l'apprentissage de la récompense et l'optimisation de la politique peuvent être fusionnés en un objectif contrastif unique pour plus de stabilité, elles restent néanmoins ancrées dans le cadre de la maximisation de la récompense. Récemment, une nouvelle vague de recherche contourne les présomptions de maximisation de la récompense en faveur d'une optimisation directe sur des préférences "par paires" ou générales. Dans cet article, nous introduisons l'Optimisation Directe de Nash (DNO), un algorithme prouvable et scalable qui combine la simplicité et la stabilité de l'apprentissage contrastif avec la généralité théorique de l'optimisation des préférences générales. Comme DNO est un algorithme par lots sur politique utilisant un objectif basé sur la régression, son implémentation est simple et efficace. De plus, DNO bénéficie d'une amélioration monotone au fil des itérations, ce qui l'aide à s'améliorer même par rapport à un enseignant puissant (comme GPT-4). Dans nos expériences, un modèle Orca-2.5 de 7 milliards de paramètres aligné par DNO atteint un taux de victoire de pointe de 33 % contre GPT-4-Turbo sur AlpacaEval 2.0 (même après contrôle de la longueur des réponses), un gain absolu de 26 % (de 7 % à 33 %) par rapport au modèle initial. Il surpasse des modèles avec bien plus de paramètres, notamment Mistral Large, Self-Rewarding LM (70 milliards de paramètres) et les versions antérieures de GPT-4.

English

This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.

Optimisation Directe de Nash : Enseigner aux Modèles de Langage à s'Améliorer par eux-mêmes avec des Préférences Générales

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

papers.abstract

Support