Iterative Nash-Policy-Optimierung: Ausrichtung von LLMs mit allgemeinen Präferenzen durch No-Regret-Lernen

Zusammenfassung

Das Reinforcement Learning mit menschlichem Feedback (RLHF) hat große Erfolge erzielt, um große Sprachmodelle (LLMs) mit menschlichen Präferenzen in Einklang zu bringen. Gängige RLHF-Ansätze basieren auf Belohnungen und folgen der Annahme des Bradley-Terry (BT)-Modells, das möglicherweise nicht die Komplexität menschlicher Präferenzen vollständig erfasst. In diesem Artikel untersuchen wir RLHF unter einem allgemeinen Präferenzrahmen und betrachten es aus einer spieltheoretischen Perspektive. Konkret formulieren wir das Problem als Zwei-Spieler-Spiel und schlagen einen neuen Algorithmus vor, die iterative Nash-Policy-Optimierung (INPO). Die Schlüsselidee besteht darin, die Richtlinie mittels No-Regret-Lernen gegen sich selbst spielen zu lassen, um die Nash-Policy anzunähern. Im Gegensatz zu früheren Methoden umgeht INPO die Notwendigkeit, die erwartete Gewinnrate für individuelle Antworten zu schätzen, was in der Regel hohe Rechen- oder Annotierungskosten verursacht. Stattdessen führen wir ein neues Verlustziel ein, das direkt über einen Präferenzdatensatz minimiert wird. Wir bieten eine theoretische Analyse unseres Ansatzes an und zeigen dessen Wirksamkeit durch Experimente an verschiedenen repräsentativen Benchmarks. Mit einem auf LLaMA-3-8B basierenden SFT-Modell erreicht INPO eine 41,5%ige Längenkontroll-Gewinnrate bei AlpacaEval 2.0 und eine 38,3%ige Gewinnrate bei Arena-Hard, was eine erhebliche Verbesserung gegenüber dem State-of-the-Art-Iterationsalgorithmus [Dong et al., 2024] unter der Annahme des BT-Modells darstellt. Darüber hinaus hebt unsere Ablationsstudie die Vorteile der Einbeziehung der KL-Regularisierung für die Kontrolle der Antwortlänge hervor.

English

Reinforcement Learning with Human Feedback (RLHF) has achieved great success in aligning large language models (LLMs) with human preferences. Prevalent RLHF approaches are reward-based, following the Bradley-Terry (BT) model assumption, which may not fully capture the complexity of human preferences. In this paper, we explore RLHF under a general preference framework and approach it from a game-theoretic perspective. Specifically, we formulate the problem as a two-player game and propose a novel algorithm, iterative Nash policy optimization (INPO). The key idea is to let the policy play against itself via no-regret learning, thereby approximating the Nash policy. Unlike previous methods, INPO bypasses the need for estimating the expected win rate for individual responses, which typically incurs high computational or annotation costs. Instead, we introduce a new loss objective that is directly minimized over a preference dataset. We provide theoretical analysis for our approach and demonstrate its effectiveness through experiments on various representative benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5% length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on Arena-Hard, showing substantial improvement over the state-of-the-art iterative algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our ablation study highlights the benefits of incorporating KL regularization for response length control.

Iterative Nash-Policy-Optimierung: Ausrichtung von LLMs mit allgemeinen Präferenzen durch No-Regret-Lernen

Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Zusammenfassung

Support