Direkte Nash-Optimierung: Lehren von Sprachmodellen zur Selbstverbesserung mit allgemeinen Präferenzen

papers.abstract

Dieser Artikel untersucht die Nachschulung großer Sprachmodelle (LLMs), die Präferenzrückmeldungen von einem leistungsstarken Orakel verwenden, um einem Modell dabei zu helfen, sich iterativ zu verbessern. Der typische Ansatz für die Nachschulung von LLMs beinhaltet das Lernen aus menschlichem Feedback mittels Verstärkungslernen (RLHF), das traditionell das Lernen von Belohnungen und die anschließende Optimierung der Richtlinie trennt. Jedoch ist ein solcher Ansatz zur Belohnungsmaximierung durch die Natur von "punktweisen" Belohnungen (wie dem Bradley-Terry-Modell) begrenzt, da er komplexe intransitive oder zyklische Präferenzbeziehungen nicht ausdrücken kann. Während Fortschritte im RLHF zeigen, dass das Lernen von Belohnungen und die Optimierung der Richtlinie zu einem einzigen kontrastiven Ziel zur Stabilität verschmolzen werden können, bleiben sie dennoch dem Rahmen der Belohnungsmaximierung verpflichtet. Kürzlich umgeht eine neue Welle von Forschungsergebnissen die Annahmen zur Belohnungsmaximierung zugunsten einer direkten Optimierung von "paarweisen" oder allgemeinen Präferenzen. In diesem Artikel stellen wir die Direkte Nash-Optimierung (DNO) vor, einen nachweisbaren und skalierbaren Algorithmus, der die Einfachheit und Stabilität des kontrastiven Lernens mit der theoretischen Allgemeingültigkeit der Optimierung allgemeiner Präferenzen verbindet. Da DNO ein stapelverarbeiteter On-Policy-Algorithmus ist, der ein objektives Regressionsverfahren verwendet, ist seine Implementierung einfach und effizient. Darüber hinaus profitiert DNO von einer monotonen Verbesserung über Iterationen hinweg, die es ihm ermöglicht, sich sogar über einem starken Lehrer (wie GPT-4) zu verbessern. In unseren Experimenten erreicht ein resultierendes 7B-Parameter-Modell Orca-2.5, das durch DNO ausgerichtet ist, die Spitzenposition gegenüber GPT-4-Turbo mit einer Gewinnrate von 33% auf AlpacaEval 2.0 (selbst nach Kontrolle der Antwortlänge), ein absoluter Gewinn von 26% (von 7% auf 33%) gegenüber dem initialen Modell. Es übertrifft Modelle mit weit mehr Parametern, einschließlich Mistral Large, Self-Rewarding LM (70B Parameter) und älteren Versionen von GPT-4.

English

This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.

Direkte Nash-Optimierung: Lehren von Sprachmodellen zur Selbstverbesserung mit allgemeinen Präferenzen

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

papers.abstract

Support