NOVER : Entraînement incitatif pour les modèles de langage via l'apprentissage par renforcement sans vérificateur
NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning
May 21, 2025
Auteurs: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
cs.AI
Résumé
Les avancées récentes, telles que DeepSeek R1-Zero, mettent en lumière l'efficacité de l'apprentissage par incitation, un paradigme d'apprentissage par renforcement qui calcule les récompenses uniquement sur la base de la partie finale de la réponse générée par un modèle de langage, encourageant ainsi la production d'étapes de raisonnement intermédiaires. Cependant, ces méthodes reposent fondamentalement sur des vérificateurs externes, ce qui limite leur applicabilité à des domaines comme les mathématiques et la programmation, où de tels vérificateurs sont facilement disponibles. Bien que les modèles de récompense puissent servir de vérificateurs, ils nécessitent des données annotées de haute qualité et sont coûteux à entraîner. Dans ce travail, nous proposons NOVER, NO-VERifier Reinforcement Learning, un cadre général d'apprentissage par renforcement qui ne nécessite que des données standard de fine-tuning supervisé, sans recourir à un vérificateur externe. NOVER permet l'apprentissage par incitation sur une large gamme de tâches de texte-à-texte et surpasse un modèle de même taille distillé à partir de grands modèles de raisonnement tels que DeepSeek R1 671B de 7,7 %. De plus, la flexibilité de NOVER ouvre de nouvelles possibilités pour optimiser les grands modèles de langage, comme l'apprentissage par incitation inverse.
English
Recent advances such as DeepSeek R1-Zero highlight the effectiveness of
incentive training, a reinforcement learning paradigm that computes rewards
solely based on the final answer part of a language model's output, thereby
encouraging the generation of intermediate reasoning steps. However, these
methods fundamentally rely on external verifiers, which limits their
applicability to domains like mathematics and coding where such verifiers are
readily available. Although reward models can serve as verifiers, they require
high-quality annotated data and are costly to train. In this work, we propose
NOVER, NO-VERifier Reinforcement Learning, a general reinforcement learning
framework that requires only standard supervised fine-tuning data with no need
for an external verifier. NOVER enables incentive training across a wide range
of text-to-text tasks and outperforms the model of the same size distilled from
large reasoning models such as DeepSeek R1 671B by 7.7 percent. Moreover, the
flexibility of NOVER enables new possibilities for optimizing large language
models, such as inverse incentive training.Summary
AI-Generated Summary