Modelos de Lenguaje con Autorecompensa

Resumen

Postulamos que para lograr agentes superhumanos, los modelos futuros requieren retroalimentación superhumana para proporcionar una señal de entrenamiento adecuada. Los enfoques actuales comúnmente entrenan modelos de recompensa a partir de preferencias humanas, lo que puede verse limitado por el nivel de desempeño humano, y en segundo lugar, estos modelos de recompensa separados y congelados no pueden aprender a mejorar durante el entrenamiento de LLM. En este trabajo, estudiamos los Modelos de Lenguaje Autorecompensados, donde el propio modelo de lenguaje se utiliza mediante el enfoque de LLM-como-Juez para proporcionar sus propias recompensas durante el entrenamiento. Demostramos que durante el entrenamiento iterativo con DPO no solo mejora la capacidad de seguimiento de instrucciones, sino también la capacidad de proporcionar recompensas de alta calidad a sí mismo. El ajuste fino de Llama 2 70B en tres iteraciones de nuestro enfoque produce un modelo que supera a muchos sistemas existentes en el ranking de AlpacaEval 2.0, incluyendo Claude 2, Gemini Pro y GPT-4 0613. Aunque es solo un estudio preliminar, este trabajo abre la puerta a la posibilidad de modelos que puedan mejorar continuamente en ambos ejes.

English

We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study, this work opens the door to the possibility of models that can continually improve in both axes.