Optimisation des Préférences par Auto-Jeu pour l'Alignement des Modèles de Langage

papers.abstract

Les approches traditionnelles d'apprentissage par renforcement à partir de retours humains (RLHF) reposant sur des modèles paramétriques comme le modèle de Bradley-Terry échouent à capturer l'intransitivité et l'irrationalité des préférences humaines. Les avancées récentes suggèrent que travailler directement avec des probabilités de préférence peut offrir une représentation plus fidèle des préférences humaines, permettant un alignement des modèles de langage plus flexible et précis. Dans cet article, nous proposons une méthode basée sur l'auto-joueur pour l'alignement des modèles de langage, qui traite le problème comme un jeu à somme constante à deux joueurs visant à identifier la politique d'équilibre de Nash. Notre approche, nommée Optimisation des Préférences par Auto-Joueur (SPPO), approxime l'équilibre de Nash à travers des mises à jour itératives de la politique et bénéficie d'une garantie théorique de convergence. Notre méthode peut efficacement augmenter la log-vraisemblance de la réponse choisie et diminuer celle de la réponse rejetée, ce qui ne peut être trivialement réalisé par des fonctions de perte symétriques par paire telles que l'Optimisation Directe des Préférences (DPO) et l'Optimisation des Préférences d'Identité (IPO). Dans nos expériences, en utilisant seulement 60k prompts (sans réponses) du jeu de données UltraFeedback et sans aucune augmentation de prompt, en exploitant un modèle de préférence pré-entraîné PairRM avec seulement 0,4 milliard de paramètres, SPPO permet d'obtenir un modèle issu du fine-tuning de Mistral-7B-Instruct-v0.2 qui atteint un taux de victoire contrôlé par la longueur de pointe de 28,53 % contre GPT-4-Turbo sur AlpacaEval 2.0. Il surpasse également les versions (itératives) de DPO et IPO sur MT-Bench et le classement Open LLM Leaderboard. Notamment, la forte performance de SPPO est atteinte sans supervision externe supplémentaire (par exemple, réponses, préférences, etc.) de GPT-4 ou d'autres modèles de langage plus puissants.

English

Traditional reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed Self-Play Preference Optimization (SPPO), approximates the Nash equilibrium through iterative policy updates and enjoys theoretical convergence guarantee. Our method can effectively increase the log-likelihood of the chosen response and decrease that of the rejected response, which cannot be trivially achieved by symmetric pairwise loss such as Direct Preference Optimization (DPO) and Identity Preference Optimization (IPO). In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and the Open LLM Leaderboard. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models.

Optimisation des Préférences par Auto-Jeu pour l'Alignement des Modèles de Langage

Self-Play Preference Optimization for Language Model Alignment

papers.abstract

Support