Directe Nash-optimalisatie: Taalmodellen leren om zichzelf te verbeteren met algemene voorkeuren

Samenvatting

Dit artikel bestudeert het post-training van grote taalmodellen (LLMs) met behulp van voorkeursfeedback van een krachtige orakel om een model iteratief te helpen verbeteren. De typische aanpak voor post-training van LLMs omvat Reinforcement Learning from Human Feedback (RLHF), waarbij traditioneel beloningsleren en daaropvolgende beleidsoptimalisatie worden gescheiden. Een dergelijke beloningsmaximalisatiebenadering wordt echter beperkt door de aard van "puntgewijze" beloningen (zoals het Bradley-Terry-model), die complexe intransitieve of cyclische voorkeursrelaties niet kunnen uitdrukken. Hoewel vooruitgang in RLHF aantoont dat beloningsleren en beleidsoptimalisatie kunnen worden samengevoegd tot een enkel contrastief doel voor stabiliteit, blijven ze toch verbonden aan het beloningsmaximalisatieraamwerk. Recentelijk omzeilt een nieuwe golf van onderzoek de veronderstellingen van beloningsmaximalisatie ten gunste van het direct optimaliseren van "paarsgewijze" of algemene voorkeuren. In dit artikel introduceren we Direct Nash Optimization (DNO), een bewezen en schaalbare algoritme dat de eenvoud en stabiliteit van contrastief leren combineert met theoretische algemeenheid door het optimaliseren van algemene voorkeuren. Omdat DNO een batchgewijs on-policy algoritme is dat een regressiegebaseerd doel gebruikt, is de implementatie eenvoudig en efficiënt. Bovendien geniet DNO van monotone verbetering over iteraties, wat helpt om zelfs te verbeteren ten opzichte van een sterke leraar (zoals GPT-4). In onze experimenten behaalt een resulterend 7B-parameter Orca-2.5-model, afgestemd door DNO, de state-of-the-art win-rate tegen GPT-4-Turbo van 33% op AlpacaEval 2.0 (zelfs na correctie voor responslengte), een absolute winst van 26% (7% naar 33%) ten opzichte van het initiërende model. Het presteert beter dan modellen met veel meer parameters, waaronder Mistral Large, Self-Rewarding LM (70B parameters) en oudere versies van GPT-4.

English

This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.

Directe Nash-optimalisatie: Taalmodellen leren om zichzelf te verbeteren met algemene voorkeuren

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Samenvatting

Support