Ottimizzazione Diretta di Nash: Insegnare ai Modelli Linguistici a Migliorarsi con Preferenze Generali
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences
April 4, 2024
Autori: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie
cs.AI
Abstract
Questo articolo studia il post-addestramento di grandi modelli linguistici (LLM) utilizzando feedback di preferenza da un oracolo potente per aiutare un modello a migliorare iterativamente se stesso. L'approccio tipico per il post-addestramento degli LLM prevede il Reinforcement Learning from Human Feedback (RLHF), che tradizionalmente separa l'apprendimento della ricompensa e la successiva ottimizzazione della politica. Tuttavia, tale approccio di massimizzazione della ricompensa è limitato dalla natura delle ricompense "puntuali" (come il modello Bradley-Terry), che non riescono a esprimere relazioni di preferenza complesse, intransitive o cicliche. Sebbene i progressi nel RLHF mostrino che l'apprendimento della ricompensa e l'ottimizzazione della politica possono essere fusi in un unico obiettivo contrastivo per garantire stabilità, essi rimangono comunque ancorati al framework di massimizzazione della ricompensa. Recentemente, una nuova ondata di ricerca evita le presupposizioni della massimizzazione della ricompensa a favore di un'ottimizzazione diretta su preferenze "a coppie" o generali. In questo articolo, introduciamo la Direct Nash Optimization (DNO), un algoritmo dimostrabile e scalabile che unisce la semplicità e la stabilità dell'apprendimento contrastivo con la generalità teorica derivante dall'ottimizzazione di preferenze generali. Poiché DNO è un algoritmo on-policy in batch che utilizza un obiettivo basato sulla regressione, la sua implementazione è diretta ed efficiente. Inoltre, DNO gode di un miglioramento monotono attraverso le iterazioni che lo aiutano a migliorare anche rispetto a un insegnante forte (come GPT-4). Nei nostri esperimenti, un modello Orca-2.5 da 7B parametri allineato con DNO raggiunge un tasso di vittoria state-of-the-art contro GPT-4-Turbo del 33% su AlpacaEval 2.0 (anche dopo aver controllato la lunghezza della risposta), un guadagno assoluto del 26% (dal 7% al 33%) rispetto al modello iniziale. Supera modelli con molti più parametri, tra cui Mistral Large, Self-Rewarding LM (70B parametri) e versioni precedenti di GPT-4.
English
This paper studies post-training large language models (LLMs) using
preference feedback from a powerful oracle to help a model iteratively improve
over itself. The typical approach for post-training LLMs involves Reinforcement
Learning from Human Feedback (RLHF), which traditionally separates reward
learning and subsequent policy optimization. However, such a reward
maximization approach is limited by the nature of "point-wise" rewards (such as
Bradley-Terry model), which fails to express complex intransitive or cyclic
preference relations. While advances on RLHF show reward learning and policy
optimization can be merged into a single contrastive objective for stability,
they yet still remain tethered to the reward maximization framework. Recently,
a new wave of research sidesteps the reward maximization presumptions in favor
of directly optimizing over "pair-wise" or general preferences. In this paper,
we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm
that marries the simplicity and stability of contrastive learning with
theoretical generality from optimizing general preferences. Because DNO is a
batched on-policy algorithm using a regression-based objective, its
implementation is straightforward and efficient. Moreover, DNO enjoys monotonic
improvement across iterations that help it improve even over a strong teacher
(such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model
aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of
33% on AlpacaEval 2.0 (even after controlling for response length), an absolute
gain of 26% (7% to 33%) over the initializing model. It outperforms models with
far more parameters, including Mistral Large, Self-Rewarding LM (70B
parameters), and older versions of GPT-4.