ChatPaper.aiChatPaper

Ottimizzazione Diretta di Nash: Insegnare ai Modelli Linguistici a Migliorarsi con Preferenze Generali

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

April 4, 2024
Autori: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie
cs.AI

Abstract

Questo articolo studia il post-addestramento di grandi modelli linguistici (LLM) utilizzando feedback di preferenza da un oracolo potente per aiutare un modello a migliorare iterativamente se stesso. L'approccio tipico per il post-addestramento degli LLM prevede il Reinforcement Learning from Human Feedback (RLHF), che tradizionalmente separa l'apprendimento della ricompensa e la successiva ottimizzazione della politica. Tuttavia, tale approccio di massimizzazione della ricompensa è limitato dalla natura delle ricompense "puntuali" (come il modello Bradley-Terry), che non riescono a esprimere relazioni di preferenza complesse, intransitive o cicliche. Sebbene i progressi nel RLHF mostrino che l'apprendimento della ricompensa e l'ottimizzazione della politica possono essere fusi in un unico obiettivo contrastivo per garantire stabilità, essi rimangono comunque ancorati al framework di massimizzazione della ricompensa. Recentemente, una nuova ondata di ricerca evita le presupposizioni della massimizzazione della ricompensa a favore di un'ottimizzazione diretta su preferenze "a coppie" o generali. In questo articolo, introduciamo la Direct Nash Optimization (DNO), un algoritmo dimostrabile e scalabile che unisce la semplicità e la stabilità dell'apprendimento contrastivo con la generalità teorica derivante dall'ottimizzazione di preferenze generali. Poiché DNO è un algoritmo on-policy in batch che utilizza un obiettivo basato sulla regressione, la sua implementazione è diretta ed efficiente. Inoltre, DNO gode di un miglioramento monotono attraverso le iterazioni che lo aiutano a migliorare anche rispetto a un insegnante forte (come GPT-4). Nei nostri esperimenti, un modello Orca-2.5 da 7B parametri allineato con DNO raggiunge un tasso di vittoria state-of-the-art contro GPT-4-Turbo del 33% su AlpacaEval 2.0 (anche dopo aver controllato la lunghezza della risposta), un guadagno assoluto del 26% (dal 7% al 33%) rispetto al modello iniziale. Supera modelli con molti più parametri, tra cui Mistral Large, Self-Rewarding LM (70B parametri) e versioni precedenti di GPT-4.
English
This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.
PDF621December 15, 2024