Optimisation Itérative des Politiques de Nash : Aligner les Modèles de Langage avec des Préférences Générales via l'Apprentissage Sans Regret

Résumé

L'apprentissage par renforcement avec feedback humain (RLHF) a connu un grand succès dans l'alignement des grands modèles de langage (LLMs) avec les préférences humaines. Les approches RLHF prédominantes sont basées sur des récompenses, suivant l'hypothèse du modèle Bradley-Terry (BT), qui pourrait ne pas capturer entièrement la complexité des préférences humaines. Dans cet article, nous explorons le RLHF dans un cadre de préférences général et l'abordons sous un angle de théorie des jeux. Plus précisément, nous formulons le problème comme un jeu à deux joueurs et proposons un nouvel algorithme, l'optimisation itérative de politique de Nash (INPO). L'idée clé est de faire jouer la politique contre elle-même via un apprentissage sans regret, permettant ainsi d'approximer la politique de Nash. Contrairement aux méthodes précédentes, INPO contourne la nécessité d'estimer le taux de victoire attendu pour des réponses individuelles, ce qui entraîne généralement des coûts de calcul ou d'annotation élevés. Au lieu de cela, nous introduisons un nouvel objectif de perte qui est directement minimisé sur un ensemble de données de préférences. Nous fournissons une analyse théorique de notre approche et démontrons son efficacité à travers des expériences sur divers benchmarks représentatifs. Avec un modèle SFT basé sur LLaMA-3-8B, INPO atteint un taux de victoire contrôlé par la longueur de 41,5 % sur AlpacaEval 2.0 et un taux de victoire de 38,3 % sur Arena-Hard, montrant une amélioration substantielle par rapport à l'algorithme itératif de pointe [Dong et al., 2024] sous l'hypothèse du modèle BT. De plus, notre étude d'ablation met en évidence les avantages de l'intégration de la régularisation KL pour le contrôle de la longueur des réponses.

English

Reinforcement Learning with Human Feedback (RLHF) has achieved great success in aligning large language models (LLMs) with human preferences. Prevalent RLHF approaches are reward-based, following the Bradley-Terry (BT) model assumption, which may not fully capture the complexity of human preferences. In this paper, we explore RLHF under a general preference framework and approach it from a game-theoretic perspective. Specifically, we formulate the problem as a two-player game and propose a novel algorithm, iterative Nash policy optimization (INPO). The key idea is to let the policy play against itself via no-regret learning, thereby approximating the Nash policy. Unlike previous methods, INPO bypasses the need for estimating the expected win rate for individual responses, which typically incurs high computational or annotation costs. Instead, we introduce a new loss objective that is directly minimized over a preference dataset. We provide theoretical analysis for our approach and demonstrate its effectiveness through experiments on various representative benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5% length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on Arena-Hard, showing substantial improvement over the state-of-the-art iterative algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our ablation study highlights the benefits of incorporating KL regularization for response length control.

Optimisation Itérative des Politiques de Nash : Aligner les Modèles de Langage avec des Préférences Générales via l'Apprentissage Sans Regret

Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Résumé

Support