Modèles de Langage Auto-Récompensants
Self-Rewarding Language Models
January 18, 2024
Auteurs: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston
cs.AI
Résumé
Nous postulons que pour atteindre des agents surhumains, les modèles futurs nécessitent un retour d'information surhumain afin de fournir un signal d'entraînement adéquat. Les approches actuelles entraînent couramment des modèles de récompense à partir des préférences humaines, ce qui peut alors être limité par le niveau de performance humaine, et deuxièmement, ces modèles de récompense séparés et figés ne peuvent ensuite apprendre à s'améliorer pendant l'entraînement des LLM. Dans ce travail, nous étudions les modèles de langage auto-récompensants, où le modèle de langage lui-même est utilisé via une incitation LLM-comme-juge pour fournir ses propres récompenses pendant l'entraînement. Nous montrons que pendant l'entraînement itératif DPO, non seulement la capacité à suivre les instructions s'améliore, mais aussi la capacité à fournir des récompenses de haute qualité à lui-même. Le fine-tuning de Llama 2 70B sur trois itérations de notre approche produit un modèle qui surpasse de nombreux systèmes existants sur le classement AlpacaEval 2.0, y compris Claude 2, Gemini Pro et GPT-4 0613. Bien qu'il ne s'agisse que d'une étude préliminaire, ce travail ouvre la porte à la possibilité de modèles capables de s'améliorer continuellement sur les deux axes.
English
We posit that to achieve superhuman agents, future models require superhuman
feedback in order to provide an adequate training signal. Current approaches
commonly train reward models from human preferences, which may then be
bottlenecked by human performance level, and secondly these separate frozen
reward models cannot then learn to improve during LLM training. In this work,
we study Self-Rewarding Language Models, where the language model itself is
used via LLM-as-a-Judge prompting to provide its own rewards during training.
We show that during Iterative DPO training that not only does instruction
following ability improve, but also the ability to provide high-quality rewards
to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a
model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard,
including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study,
this work opens the door to the possibility of models that can continually
improve in both axes.