Optimisation Itérative des Politiques de Nash : Aligner les Modèles de Langage avec des Préférences Générales via l'Apprentissage Sans Regret
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
June 30, 2024
Auteurs: Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
cs.AI
Résumé
L'apprentissage par renforcement avec feedback humain (RLHF) a connu un grand succès dans l'alignement des grands modèles de langage (LLMs) avec les préférences humaines. Les approches RLHF prédominantes sont basées sur des récompenses, suivant l'hypothèse du modèle Bradley-Terry (BT), qui pourrait ne pas capturer entièrement la complexité des préférences humaines. Dans cet article, nous explorons le RLHF dans un cadre de préférences général et l'abordons sous un angle de théorie des jeux. Plus précisément, nous formulons le problème comme un jeu à deux joueurs et proposons un nouvel algorithme, l'optimisation itérative de politique de Nash (INPO). L'idée clé est de faire jouer la politique contre elle-même via un apprentissage sans regret, permettant ainsi d'approximer la politique de Nash. Contrairement aux méthodes précédentes, INPO contourne la nécessité d'estimer le taux de victoire attendu pour des réponses individuelles, ce qui entraîne généralement des coûts de calcul ou d'annotation élevés. Au lieu de cela, nous introduisons un nouvel objectif de perte qui est directement minimisé sur un ensemble de données de préférences. Nous fournissons une analyse théorique de notre approche et démontrons son efficacité à travers des expériences sur divers benchmarks représentatifs. Avec un modèle SFT basé sur LLaMA-3-8B, INPO atteint un taux de victoire contrôlé par la longueur de 41,5 % sur AlpacaEval 2.0 et un taux de victoire de 38,3 % sur Arena-Hard, montrant une amélioration substantielle par rapport à l'algorithme itératif de pointe [Dong et al., 2024] sous l'hypothèse du modèle BT. De plus, notre étude d'ablation met en évidence les avantages de l'intégration de la régularisation KL pour le contrôle de la longueur des réponses.
English
Reinforcement Learning with Human Feedback (RLHF) has achieved great success
in aligning large language models (LLMs) with human preferences. Prevalent RLHF
approaches are reward-based, following the Bradley-Terry (BT) model assumption,
which may not fully capture the complexity of human preferences. In this paper,
we explore RLHF under a general preference framework and approach it from a
game-theoretic perspective. Specifically, we formulate the problem as a
two-player game and propose a novel algorithm, iterative Nash policy
optimization (INPO). The key idea is to let the policy play against itself via
no-regret learning, thereby approximating the Nash policy. Unlike previous
methods, INPO bypasses the need for estimating the expected win rate for
individual responses, which typically incurs high computational or annotation
costs. Instead, we introduce a new loss objective that is directly minimized
over a preference dataset. We provide theoretical analysis for our approach and
demonstrate its effectiveness through experiments on various representative
benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5%
length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on
Arena-Hard, showing substantial improvement over the state-of-the-art iterative
algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our
ablation study highlights the benefits of incorporating KL regularization for
response length control.Summary
AI-Generated Summary