Redonner de la valeur au RL : Améliorer la mise à l'échelle en temps de test en unifiant les raisonneurs LLM avec les vérificateurs
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
May 7, 2025
Auteurs: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini
cs.AI
Résumé
Les méthodes prédominantes d'apprentissage par renforcement (RL) pour le réglage fin de raisonneurs LLM, telles que GRPO ou Leave-one-out PPO, abandonnent la fonction de valeur apprise au profit de retours estimés empiriquement. Cela entrave la mise à l'échelle des calculs au moment du test qui repose sur l'utilisation de la fonction de valeur pour la vérification. Dans ce travail, nous proposons RL^V, qui améliore toute méthode RL « sans valeur » en entraînant conjointement le LLM comme raisonneur et vérificateur génératif à l'aide de données générées par RL, ajoutant ainsi des capacités de vérification sans surcharge significative. Empiriquement, RL^V améliore la précision sur MATH de plus de 20 % avec un échantillonnage parallèle et permet une mise à l'échelle des calculs au moment du test 8 à 32 fois plus efficace que la méthode RL de base. RL^V montre également de solides capacités de généralisation pour les tâches faciles à difficiles et hors domaine. De plus, RL^V atteint une performance 1,2 à 1,6 fois supérieure lors de la mise à l'échelle conjointe des calculs parallèles et séquentiels au moment du test avec un modèle de raisonnement long R1.
English
Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners,
such as GRPO or Leave-one-out PPO, abandon the learned value function in favor
of empirically estimated returns. This hinders test-time compute scaling that
relies on using the value-function for verification. In this work, we propose
RL^V that augments any ``value-free'' RL method by jointly training the LLM
as both a reasoner and a generative verifier using RL-generated data, adding
verification capabilities without significant overhead. Empirically, RL^V
boosts MATH accuracy by over 20\% with parallel sampling and enables
8-32times efficient test-time compute scaling compared to the base RL
method. RL^V also exhibits strong generalization capabilities for both
easy-to-hard and out-of-domain tasks. Furthermore, RL^V achieves
1.2-1.6times higher performance when jointly scaling parallel and sequential
test-time compute with a long reasoning R1 model.Summary
AI-Generated Summary