Zelfbelonende Taalmodellen

Samenvatting

Wij stellen dat toekomstige modellen supermenselijke feedback nodig hebben om supermenselijke agents te bereiken, zodat een adequaat trainingssignaal wordt geboden. Huidige benaderingen trainen vaak beloningsmodellen op basis van menselijke voorkeuren, wat vervolgens beperkt kan worden door het prestatieniveau van mensen, en ten tweede kunnen deze afzonderlijke, bevroren beloningsmodellen niet leren om zich te verbeteren tijdens de training van het taalmodel. In dit werk bestuderen we Zelfbelonende Taalmodellen, waarbij het taalmodel zelf wordt gebruikt via LLM-as-a-Judge prompting om zijn eigen beloningen te geven tijdens de training. We laten zien dat tijdens Iteratieve DPO-training niet alleen het vermogen om instructies te volgen verbetert, maar ook het vermogen om hoogwaardige beloningen aan zichzelf te geven. Het finetunen van Llama 2 70B op drie iteraties van onze aanpak resulteert in een model dat veel bestaande systemen op de AlpacaEval 2.0-leaderboard overtreft, waaronder Claude 2, Gemini Pro en GPT-4 0613. Hoewel dit slechts een voorlopige studie is, opent dit werk de deur naar de mogelijkheid van modellen die zich continu kunnen verbeteren op beide assen.

English

We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study, this work opens the door to the possibility of models that can continually improve in both axes.