Modelos de Linguagem de Autorrecompensa
Self-Rewarding Language Models
January 18, 2024
Autores: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston
cs.AI
Resumo
Postulamos que, para alcançar agentes super-humanos, modelos futuros exigem feedback super-humano a fim de fornecer um sinal de treinamento adequado. As abordagens atuais comumente treinam modelos de recompensa a partir de preferências humanas, que podem então ser limitadas pelo nível de desempenho humano, e, em segundo lugar, esses modelos de recompensa separados e congelados não podem aprender a melhorar durante o treinamento de LLMs. Neste trabalho, estudamos Modelos de Linguagem de Auto-Recompensa, onde o próprio modelo de linguagem é utilizado por meio de prompts LLM-as-a-Judge para fornecer suas próprias recompensas durante o treinamento. Demonstramos que, durante o treinamento Iterativo de DPO, não apenas a capacidade de seguir instruções melhora, mas também a habilidade de fornecer recompensas de alta qualidade para si mesmo. O ajuste fino do Llama 2 70B em três iterações da nossa abordagem resulta em um modelo que supera muitos sistemas existentes no ranking AlpacaEval 2.0, incluindo Claude 2, Gemini Pro e GPT-4 0613. Embora seja apenas um estudo preliminar, este trabalho abre a porta para a possibilidade de modelos que podem melhorar continuamente em ambos os eixos.
English
We posit that to achieve superhuman agents, future models require superhuman
feedback in order to provide an adequate training signal. Current approaches
commonly train reward models from human preferences, which may then be
bottlenecked by human performance level, and secondly these separate frozen
reward models cannot then learn to improve during LLM training. In this work,
we study Self-Rewarding Language Models, where the language model itself is
used via LLM-as-a-Judge prompting to provide its own rewards during training.
We show that during Iterative DPO training that not only does instruction
following ability improve, but also the ability to provide high-quality rewards
to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a
model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard,
including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study,
this work opens the door to the possibility of models that can continually
improve in both axes.