Iterative Nash-Policy-Optimierung: Ausrichtung von LLMs mit allgemeinen Präferenzen durch No-Regret-Lernen
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
June 30, 2024
Autoren: Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
cs.AI
Zusammenfassung
Das Reinforcement Learning mit menschlichem Feedback (RLHF) hat große Erfolge erzielt, um große Sprachmodelle (LLMs) mit menschlichen Präferenzen in Einklang zu bringen. Gängige RLHF-Ansätze basieren auf Belohnungen und folgen der Annahme des Bradley-Terry (BT)-Modells, das möglicherweise nicht die Komplexität menschlicher Präferenzen vollständig erfasst. In diesem Artikel untersuchen wir RLHF unter einem allgemeinen Präferenzrahmen und betrachten es aus einer spieltheoretischen Perspektive. Konkret formulieren wir das Problem als Zwei-Spieler-Spiel und schlagen einen neuen Algorithmus vor, die iterative Nash-Policy-Optimierung (INPO). Die Schlüsselidee besteht darin, die Richtlinie mittels No-Regret-Lernen gegen sich selbst spielen zu lassen, um die Nash-Policy anzunähern. Im Gegensatz zu früheren Methoden umgeht INPO die Notwendigkeit, die erwartete Gewinnrate für individuelle Antworten zu schätzen, was in der Regel hohe Rechen- oder Annotierungskosten verursacht. Stattdessen führen wir ein neues Verlustziel ein, das direkt über einen Präferenzdatensatz minimiert wird. Wir bieten eine theoretische Analyse unseres Ansatzes an und zeigen dessen Wirksamkeit durch Experimente an verschiedenen repräsentativen Benchmarks. Mit einem auf LLaMA-3-8B basierenden SFT-Modell erreicht INPO eine 41,5%ige Längenkontroll-Gewinnrate bei AlpacaEval 2.0 und eine 38,3%ige Gewinnrate bei Arena-Hard, was eine erhebliche Verbesserung gegenüber dem State-of-the-Art-Iterationsalgorithmus [Dong et al., 2024] unter der Annahme des BT-Modells darstellt. Darüber hinaus hebt unsere Ablationsstudie die Vorteile der Einbeziehung der KL-Regularisierung für die Kontrolle der Antwortlänge hervor.
English
Reinforcement Learning with Human Feedback (RLHF) has achieved great success
in aligning large language models (LLMs) with human preferences. Prevalent RLHF
approaches are reward-based, following the Bradley-Terry (BT) model assumption,
which may not fully capture the complexity of human preferences. In this paper,
we explore RLHF under a general preference framework and approach it from a
game-theoretic perspective. Specifically, we formulate the problem as a
two-player game and propose a novel algorithm, iterative Nash policy
optimization (INPO). The key idea is to let the policy play against itself via
no-regret learning, thereby approximating the Nash policy. Unlike previous
methods, INPO bypasses the need for estimating the expected win rate for
individual responses, which typically incurs high computational or annotation
costs. Instead, we introduce a new loss objective that is directly minimized
over a preference dataset. We provide theoretical analysis for our approach and
demonstrate its effectiveness through experiments on various representative
benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5%
length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on
Arena-Hard, showing substantial improvement over the state-of-the-art iterative
algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our
ablation study highlights the benefits of incorporating KL regularization for
response length control.Summary
AI-Generated Summary