Zelfbelonende Taalmodellen
Self-Rewarding Language Models
January 18, 2024
Auteurs: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston
cs.AI
Samenvatting
Wij stellen dat toekomstige modellen supermenselijke feedback nodig hebben om supermenselijke agents te bereiken, zodat een adequaat trainingssignaal wordt geboden. Huidige benaderingen trainen vaak beloningsmodellen op basis van menselijke voorkeuren, wat vervolgens beperkt kan worden door het prestatieniveau van mensen, en ten tweede kunnen deze afzonderlijke, bevroren beloningsmodellen niet leren om zich te verbeteren tijdens de training van het taalmodel. In dit werk bestuderen we Zelfbelonende Taalmodellen, waarbij het taalmodel zelf wordt gebruikt via LLM-as-a-Judge prompting om zijn eigen beloningen te geven tijdens de training. We laten zien dat tijdens Iteratieve DPO-training niet alleen het vermogen om instructies te volgen verbetert, maar ook het vermogen om hoogwaardige beloningen aan zichzelf te geven. Het finetunen van Llama 2 70B op drie iteraties van onze aanpak resulteert in een model dat veel bestaande systemen op de AlpacaEval 2.0-leaderboard overtreft, waaronder Claude 2, Gemini Pro en GPT-4 0613. Hoewel dit slechts een voorlopige studie is, opent dit werk de deur naar de mogelijkheid van modellen die zich continu kunnen verbeteren op beide assen.
English
We posit that to achieve superhuman agents, future models require superhuman
feedback in order to provide an adequate training signal. Current approaches
commonly train reward models from human preferences, which may then be
bottlenecked by human performance level, and secondly these separate frozen
reward models cannot then learn to improve during LLM training. In this work,
we study Self-Rewarding Language Models, where the language model itself is
used via LLM-as-a-Judge prompting to provide its own rewards during training.
We show that during Iterative DPO training that not only does instruction
following ability improve, but also the ability to provide high-quality rewards
to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a
model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard,
including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study,
this work opens the door to the possibility of models that can continually
improve in both axes.