Direkte Nash-Optimierung: Lehren von Sprachmodellen zur Selbstverbesserung mit allgemeinen PräferenzenDirect Nash Optimization: Teaching Language Models to Self-Improve with
General Preferences
Dieser Artikel untersucht die Nachschulung großer Sprachmodelle (LLMs), die Präferenzrückmeldungen von einem leistungsstarken Orakel verwenden, um einem Modell dabei zu helfen, sich iterativ zu verbessern. Der typische Ansatz für die Nachschulung von LLMs beinhaltet das Lernen aus menschlichem Feedback mittels Verstärkungslernen (RLHF), das traditionell das Lernen von Belohnungen und die anschließende Optimierung der Richtlinie trennt. Jedoch ist ein solcher Ansatz zur Belohnungsmaximierung durch die Natur von "punktweisen" Belohnungen (wie dem Bradley-Terry-Modell) begrenzt, da er komplexe intransitive oder zyklische Präferenzbeziehungen nicht ausdrücken kann. Während Fortschritte im RLHF zeigen, dass das Lernen von Belohnungen und die Optimierung der Richtlinie zu einem einzigen kontrastiven Ziel zur Stabilität verschmolzen werden können, bleiben sie dennoch dem Rahmen der Belohnungsmaximierung verpflichtet. Kürzlich umgeht eine neue Welle von Forschungsergebnissen die Annahmen zur Belohnungsmaximierung zugunsten einer direkten Optimierung von "paarweisen" oder allgemeinen Präferenzen. In diesem Artikel stellen wir die Direkte Nash-Optimierung (DNO) vor, einen nachweisbaren und skalierbaren Algorithmus, der die Einfachheit und Stabilität des kontrastiven Lernens mit der theoretischen Allgemeingültigkeit der Optimierung allgemeiner Präferenzen verbindet. Da DNO ein stapelverarbeiteter On-Policy-Algorithmus ist, der ein objektives Regressionsverfahren verwendet, ist seine Implementierung einfach und effizient. Darüber hinaus profitiert DNO von einer monotonen Verbesserung über Iterationen hinweg, die es ihm ermöglicht, sich sogar über einem starken Lehrer (wie GPT-4) zu verbessern. In unseren Experimenten erreicht ein resultierendes 7B-Parameter-Modell Orca-2.5, das durch DNO ausgerichtet ist, die Spitzenposition gegenüber GPT-4-Turbo mit einer Gewinnrate von 33% auf AlpacaEval 2.0 (selbst nach Kontrolle der Antwortlänge), ein absoluter Gewinn von 26% (von 7% auf 33%) gegenüber dem initialen Modell. Es übertrifft Modelle mit weit mehr Parametern, einschließlich Mistral Large, Self-Rewarding LM (70B Parameter) und älteren Versionen von GPT-4.