Selbstbelohnende Sprachmodelle
Self-Rewarding Language Models
January 18, 2024
Autoren: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston
cs.AI
Zusammenfassung
Wir postulieren, dass zukünftige Modelle übermenschliches Feedback benötigen, um übermenschliche Agenten zu erreichen und ein angemessenes Trainingssignal zu liefern. Aktuelle Ansätze trainieren Belohnungsmodelle häufig aus menschlichen Präferenzen, die dann durch das menschliche Leistungsniveau begrenzt sein können, und zweitens können diese separaten, eingefrorenen Belohnungsmodelle während des LLM-Trainings nicht lernen, sich zu verbessern. In dieser Arbeit untersuchen wir selbstbelohnende Sprachmodelle, bei denen das Sprachmodell selbst über LLM-as-a-Judge-Prompting verwendet wird, um während des Trainings seine eigenen Belohnungen zu liefern. Wir zeigen, dass während des iterativen DPO-Trainings nicht nur die Fähigkeit zur Befolgung von Anweisungen verbessert wird, sondern auch die Fähigkeit, sich selbst hochwertige Belohnungen zu geben. Die Feinabstimmung von Llama 2 70B über drei Iterationen unseres Ansatzes ergibt ein Modell, das viele bestehende Systeme auf der AlpacaEval 2.0-Rangliste übertrifft, darunter Claude 2, Gemini Pro und GPT-4 0613. Obwohl es sich nur um eine vorläufige Studie handelt, öffnet diese Arbeit die Tür zur Möglichkeit von Modellen, die sich kontinuierlich in beiden Achsen verbessern können.
English
We posit that to achieve superhuman agents, future models require superhuman
feedback in order to provide an adequate training signal. Current approaches
commonly train reward models from human preferences, which may then be
bottlenecked by human performance level, and secondly these separate frozen
reward models cannot then learn to improve during LLM training. In this work,
we study Self-Rewarding Language Models, where the language model itself is
used via LLM-as-a-Judge prompting to provide its own rewards during training.
We show that during Iterative DPO training that not only does instruction
following ability improve, but also the ability to provide high-quality rewards
to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a
model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard,
including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study,
this work opens the door to the possibility of models that can continually
improve in both axes.