Optimisation des Préférences par Auto-Jeu pour l'Alignement des Modèles de Langage
Self-Play Preference Optimization for Language Model Alignment
May 1, 2024
Auteurs: Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, Quanquan Gu
cs.AI
Résumé
Les approches traditionnelles d'apprentissage par renforcement à partir de retours humains (RLHF) reposant sur des modèles paramétriques comme le modèle de Bradley-Terry échouent à capturer l'intransitivité et l'irrationalité des préférences humaines. Les avancées récentes suggèrent que travailler directement avec des probabilités de préférence peut offrir une représentation plus fidèle des préférences humaines, permettant un alignement des modèles de langage plus flexible et précis. Dans cet article, nous proposons une méthode basée sur l'auto-joueur pour l'alignement des modèles de langage, qui traite le problème comme un jeu à somme constante à deux joueurs visant à identifier la politique d'équilibre de Nash. Notre approche, nommée Optimisation des Préférences par Auto-Joueur (SPPO), approxime l'équilibre de Nash à travers des mises à jour itératives de la politique et bénéficie d'une garantie théorique de convergence. Notre méthode peut efficacement augmenter la log-vraisemblance de la réponse choisie et diminuer celle de la réponse rejetée, ce qui ne peut être trivialement réalisé par des fonctions de perte symétriques par paire telles que l'Optimisation Directe des Préférences (DPO) et l'Optimisation des Préférences d'Identité (IPO). Dans nos expériences, en utilisant seulement 60k prompts (sans réponses) du jeu de données UltraFeedback et sans aucune augmentation de prompt, en exploitant un modèle de préférence pré-entraîné PairRM avec seulement 0,4 milliard de paramètres, SPPO permet d'obtenir un modèle issu du fine-tuning de Mistral-7B-Instruct-v0.2 qui atteint un taux de victoire contrôlé par la longueur de pointe de 28,53 % contre GPT-4-Turbo sur AlpacaEval 2.0. Il surpasse également les versions (itératives) de DPO et IPO sur MT-Bench et le classement Open LLM Leaderboard. Notamment, la forte performance de SPPO est atteinte sans supervision externe supplémentaire (par exemple, réponses, préférences, etc.) de GPT-4 ou d'autres modèles de langage plus puissants.
English
Traditional reinforcement learning from human feedback (RLHF) approaches
relying on parametric models like the Bradley-Terry model fall short in
capturing the intransitivity and irrationality in human preferences. Recent
advancements suggest that directly working with preference probabilities can
yield a more accurate reflection of human preferences, enabling more flexible
and accurate language model alignment. In this paper, we propose a
self-play-based method for language model alignment, which treats the problem
as a constant-sum two-player game aimed at identifying the Nash equilibrium
policy. Our approach, dubbed Self-Play Preference Optimization (SPPO),
approximates the Nash equilibrium through iterative policy updates and enjoys
theoretical convergence guarantee. Our method can effectively increase the
log-likelihood of the chosen response and decrease that of the rejected
response, which cannot be trivially achieved by symmetric pairwise loss such as
Direct Preference Optimization (DPO) and Identity Preference Optimization
(IPO). In our experiments, using only 60k prompts (without responses) from the
UltraFeedback dataset and without any prompt augmentation, by leveraging a
pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain
a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the
state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on
AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and
the Open LLM Leaderboard. Notably, the strong performance of SPPO is achieved
without additional external supervision (e.g., responses, preferences, etc.)
from GPT-4 or other stronger language models.Summary
AI-Generated Summary