Selbstspiel-Präferenzoptimierung zur Ausrichtung von Sprachmodellen
Self-Play Preference Optimization for Language Model Alignment
May 1, 2024
Autoren: Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, Quanquan Gu
cs.AI
Zusammenfassung
Traditionelle Verstärkungslernen aus menschlichem Feedback (RLHF)-Ansätze, die auf parametrischen Modellen wie dem Bradley-Terry-Modell beruhen, scheitern daran, die Intransitivität und Irrationalität menschlicher Präferenzen zu erfassen. Neueste Fortschritte legen nahe, dass die direkte Arbeit mit Präferenzwahrscheinlichkeiten eine genauere Abbildung menschlicher Präferenzen ermöglichen kann, was eine flexiblere und genauere Ausrichtung von Sprachmodellen ermöglicht. In diesem Paper schlagen wir eine Self-Play-basierte Methode für die Ausrichtung von Sprachmodellen vor, die das Problem als ein konstantes Zwei-Spieler-Spiel behandelt, das darauf abzielt, die Nash-Gleichgewichtspolitik zu identifizieren. Unser Ansatz, genannt Self-Play Preference Optimization (SPPO), approximiert das Nash-Gleichgewicht durch iterative Politikaktualisierungen und bietet eine theoretische Konvergenzgarantie. Unsere Methode kann effektiv die Log-Likelihood der ausgewählten Antwort erhöhen und die der abgelehnten Antwort verringern, was nicht trivial durch symmetrische paarweise Verluste wie Direct Preference Optimization (DPO) und Identity Preference Optimization (IPO) erreicht werden kann. In unseren Experimenten, unter Verwendung von nur 60k Anfragen (ohne Antworten) aus dem UltraFeedback-Datensatz und ohne Anfragenvergrößerung, kann SPPO mithilfe eines vortrainierten Präferenzmodells PairRM mit nur 0.4B Parametern ein Modell aus dem Feintuning von Mistral-7B-Instruct-v0.2 erhalten, das den state-of-the-art Längenkontroll-Sieganteil von 28.53% gegenüber GPT-4-Turbo auf AlpacaEval 2.0 erreicht. Es übertrifft auch das (iterative) DPO und IPO auf MT-Bench und dem Open LLM Leaderboard. Bemerkenswert ist, dass die starke Leistung von SPPO ohne zusätzliche externe Aufsicht (z. B. Antworten, Präferenzen usw.) von GPT-4 oder anderen stärkeren Sprachmodellen erreicht wird.
English
Traditional reinforcement learning from human feedback (RLHF) approaches
relying on parametric models like the Bradley-Terry model fall short in
capturing the intransitivity and irrationality in human preferences. Recent
advancements suggest that directly working with preference probabilities can
yield a more accurate reflection of human preferences, enabling more flexible
and accurate language model alignment. In this paper, we propose a
self-play-based method for language model alignment, which treats the problem
as a constant-sum two-player game aimed at identifying the Nash equilibrium
policy. Our approach, dubbed Self-Play Preference Optimization (SPPO),
approximates the Nash equilibrium through iterative policy updates and enjoys
theoretical convergence guarantee. Our method can effectively increase the
log-likelihood of the chosen response and decrease that of the rejected
response, which cannot be trivially achieved by symmetric pairwise loss such as
Direct Preference Optimization (DPO) and Identity Preference Optimization
(IPO). In our experiments, using only 60k prompts (without responses) from the
UltraFeedback dataset and without any prompt augmentation, by leveraging a
pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain
a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the
state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on
AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and
the Open LLM Leaderboard. Notably, the strong performance of SPPO is achieved
without additional external supervision (e.g., responses, preferences, etc.)
from GPT-4 or other stronger language models.Summary
AI-Generated Summary