Redonner de la valeur au RL : Améliorer la mise à l'échelle en temps de test en unifiant les raisonneurs LLM avec les vérificateurs

Résumé

Les méthodes prédominantes d'apprentissage par renforcement (RL) pour le réglage fin de raisonneurs LLM, telles que GRPO ou Leave-one-out PPO, abandonnent la fonction de valeur apprise au profit de retours estimés empiriquement. Cela entrave la mise à l'échelle des calculs au moment du test qui repose sur l'utilisation de la fonction de valeur pour la vérification. Dans ce travail, nous proposons RL^V, qui améliore toute méthode RL « sans valeur » en entraînant conjointement le LLM comme raisonneur et vérificateur génératif à l'aide de données générées par RL, ajoutant ainsi des capacités de vérification sans surcharge significative. Empiriquement, RL^V améliore la précision sur MATH de plus de 20 % avec un échantillonnage parallèle et permet une mise à l'échelle des calculs au moment du test 8 à 32 fois plus efficace que la méthode RL de base. RL^V montre également de solides capacités de généralisation pour les tâches faciles à difficiles et hors domaine. De plus, RL^V atteint une performance 1,2 à 1,6 fois supérieure lors de la mise à l'échelle conjointe des calculs parallèles et séquentiels au moment du test avec un modèle de raisonnement long R1.

English

Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners, such as GRPO or Leave-one-out PPO, abandon the learned value function in favor of empirically estimated returns. This hinders test-time compute scaling that relies on using the value-function for verification. In this work, we propose RL^V that augments any ``value-free'' RL method by jointly training the LLM as both a reasoner and a generative verifier using RL-generated data, adding verification capabilities without significant overhead. Empirically, RL^V boosts MATH accuracy by over 20\% with parallel sampling and enables 8-32times efficient test-time compute scaling compared to the base RL method. RL^V also exhibits strong generalization capabilities for both easy-to-hard and out-of-domain tasks. Furthermore, RL^V achieves 1.2-1.6times higher performance when jointly scaling parallel and sequential test-time compute with a long reasoning R1 model.

Redonner de la valeur au RL : Améliorer la mise à l'échelle en temps de test en unifiant les raisonneurs LLM avec les vérificateurs

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

Résumé

Support