Direkte Nash-Optimierung: Lehren von Sprachmodellen zur Selbstverbesserung mit allgemeinen Präferenzen
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences
April 4, 2024
Autoren: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie
cs.AI
Zusammenfassung
Dieser Artikel untersucht die Nachschulung großer Sprachmodelle (LLMs), die Präferenzrückmeldungen von einem leistungsstarken Orakel verwenden, um einem Modell dabei zu helfen, sich iterativ zu verbessern. Der typische Ansatz für die Nachschulung von LLMs beinhaltet das Lernen aus menschlichem Feedback mittels Verstärkungslernen (RLHF), das traditionell das Lernen von Belohnungen und die anschließende Optimierung der Richtlinie trennt. Jedoch ist ein solcher Ansatz zur Belohnungsmaximierung durch die Natur von "punktweisen" Belohnungen (wie dem Bradley-Terry-Modell) begrenzt, da er komplexe intransitive oder zyklische Präferenzbeziehungen nicht ausdrücken kann. Während Fortschritte im RLHF zeigen, dass das Lernen von Belohnungen und die Optimierung der Richtlinie zu einem einzigen kontrastiven Ziel zur Stabilität verschmolzen werden können, bleiben sie dennoch dem Rahmen der Belohnungsmaximierung verpflichtet. Kürzlich umgeht eine neue Welle von Forschungsergebnissen die Annahmen zur Belohnungsmaximierung zugunsten einer direkten Optimierung von "paarweisen" oder allgemeinen Präferenzen. In diesem Artikel stellen wir die Direkte Nash-Optimierung (DNO) vor, einen nachweisbaren und skalierbaren Algorithmus, der die Einfachheit und Stabilität des kontrastiven Lernens mit der theoretischen Allgemeingültigkeit der Optimierung allgemeiner Präferenzen verbindet. Da DNO ein stapelverarbeiteter On-Policy-Algorithmus ist, der ein objektives Regressionsverfahren verwendet, ist seine Implementierung einfach und effizient. Darüber hinaus profitiert DNO von einer monotonen Verbesserung über Iterationen hinweg, die es ihm ermöglicht, sich sogar über einem starken Lehrer (wie GPT-4) zu verbessern. In unseren Experimenten erreicht ein resultierendes 7B-Parameter-Modell Orca-2.5, das durch DNO ausgerichtet ist, die Spitzenposition gegenüber GPT-4-Turbo mit einer Gewinnrate von 33% auf AlpacaEval 2.0 (selbst nach Kontrolle der Antwortlänge), ein absoluter Gewinn von 26% (von 7% auf 33%) gegenüber dem initialen Modell. Es übertrifft Modelle mit weit mehr Parametern, einschließlich Mistral Large, Self-Rewarding LM (70B Parameter) und älteren Versionen von GPT-4.
English
This paper studies post-training large language models (LLMs) using
preference feedback from a powerful oracle to help a model iteratively improve
over itself. The typical approach for post-training LLMs involves Reinforcement
Learning from Human Feedback (RLHF), which traditionally separates reward
learning and subsequent policy optimization. However, such a reward
maximization approach is limited by the nature of "point-wise" rewards (such as
Bradley-Terry model), which fails to express complex intransitive or cyclic
preference relations. While advances on RLHF show reward learning and policy
optimization can be merged into a single contrastive objective for stability,
they yet still remain tethered to the reward maximization framework. Recently,
a new wave of research sidesteps the reward maximization presumptions in favor
of directly optimizing over "pair-wise" or general preferences. In this paper,
we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm
that marries the simplicity and stability of contrastive learning with
theoretical generality from optimizing general preferences. Because DNO is a
batched on-policy algorithm using a regression-based objective, its
implementation is straightforward and efficient. Moreover, DNO enjoys monotonic
improvement across iterations that help it improve even over a strong teacher
(such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model
aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of
33% on AlpacaEval 2.0 (even after controlling for response length), an absolute
gain of 26% (7% to 33%) over the initializing model. It outperforms models with
far more parameters, including Mistral Large, Self-Rewarding LM (70B
parameters), and older versions of GPT-4.Summary
AI-Generated Summary