Ottimizzazione Iterativa delle Politiche di Nash: Allineamento dei Modelli Linguistici con Preferenze Generali tramite Apprendimento Senza Rimpianti
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
June 30, 2024
Autori: Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
cs.AI
Abstract
Il Reinforcement Learning con Feedback Umano (RLHF) ha ottenuto un grande successo nell'allineare i grandi modelli linguistici (LLMs) con le preferenze umane. Gli approcci RLHF prevalenti sono basati su ricompense e seguono l'assunzione del modello Bradley-Terry (BT), che potrebbe non catturare appieno la complessità delle preferenze umane. In questo articolo, esploriamo il RLHF all'interno di un quadro generale di preferenze e lo affrontiamo da una prospettiva di teoria dei giochi. Nello specifico, formuliamo il problema come un gioco a due giocatori e proponiamo un nuovo algoritmo, l'ottimizzazione iterativa della politica di Nash (INPO). L'idea chiave è far giocare la politica contro se stessa attraverso l'apprendimento senza rimpianti, approssimando così la politica di Nash. A differenza dei metodi precedenti, INPO evita la necessità di stimare il tasso di vittoria atteso per singole risposte, che tipicamente comporta costi computazionali o di annotazione elevati. Invece, introduciamo un nuovo obiettivo di perdita che viene minimizzato direttamente su un dataset di preferenze. Forniamo un'analisi teorica del nostro approccio e ne dimostriamo l'efficacia attraverso esperimenti su vari benchmark rappresentativi. Con un modello SFT basato su LLaMA-3-8B, INPO raggiunge un tasso di vittoria controllato per lunghezza del 41,5% su AlpacaEval 2.0 e un tasso di vittoria del 38,3% su Arena-Hard, mostrando un miglioramento sostanziale rispetto all'algoritmo iterativo all'avanguardia [Dong et al., 2024] sotto l'assunzione del modello BT. Inoltre, il nostro studio di ablazione evidenzia i benefici dell'incorporazione della regolarizzazione KL per il controllo della lunghezza delle risposte.
English
Reinforcement Learning with Human Feedback (RLHF) has achieved great success
in aligning large language models (LLMs) with human preferences. Prevalent RLHF
approaches are reward-based, following the Bradley-Terry (BT) model assumption,
which may not fully capture the complexity of human preferences. In this paper,
we explore RLHF under a general preference framework and approach it from a
game-theoretic perspective. Specifically, we formulate the problem as a
two-player game and propose a novel algorithm, iterative Nash policy
optimization (INPO). The key idea is to let the policy play against itself via
no-regret learning, thereby approximating the Nash policy. Unlike previous
methods, INPO bypasses the need for estimating the expected win rate for
individual responses, which typically incurs high computational or annotation
costs. Instead, we introduce a new loss objective that is directly minimized
over a preference dataset. We provide theoretical analysis for our approach and
demonstrate its effectiveness through experiments on various representative
benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5%
length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on
Arena-Hard, showing substantial improvement over the state-of-the-art iterative
algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our
ablation study highlights the benefits of incorporating KL regularization for
response length control.