RL Tango : Renforcement conjoint du générateur et du vérificateur pour le raisonnement linguistique

papers.abstract

L'apprentissage par renforcement (RL) a récemment émergé comme une approche convaincante pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), où un générateur LLM agit comme une politique guidée par un vérificateur (modèle de récompense). Cependant, les méthodes actuelles de post-formation par RL pour les LLM utilisent généralement des vérificateurs fixes (basés sur des règles ou pré-entraînés et gelés) ou entraînés de manière discriminative via un ajustement fin supervisé (SFT). Ces conceptions sont susceptibles au piratage des récompenses et généralisent mal au-delà de leurs distributions d'entraînement. Pour surmonter ces limitations, nous proposons Tango, un cadre novateur qui utilise le RL pour entraîner simultanément un générateur LLM et un vérificateur de manière entrelacée. Une innovation centrale de Tango est son vérificateur LLM génératif au niveau du processus, qui est entraîné via le RL et co-évolue avec le générateur. Il est important de noter que le vérificateur est entraîné uniquement sur la base de récompenses de correction au niveau des résultats, sans nécessiter d'annotations explicites au niveau du processus. Ce vérificateur génératif entraîné par RL montre une robustesse améliorée et une généralisation supérieure par rapport aux vérificateurs déterministes ou entraînés par SFT, favorisant un renforcement mutuel efficace avec le générateur. Des expériences approfondies démontrent que les deux composants de Tango atteignent des résultats de pointe parmi les modèles de taille 7B/8B : le générateur obtient des performances de premier ordre sur cinq benchmarks de mathématiques de niveau compétition et quatre tâches de raisonnement difficiles hors domaine, tandis que le vérificateur se distingue sur le jeu de données ProcessBench. Remarquablement, les deux composants montrent des améliorations particulièrement substantielles sur les problèmes de raisonnement mathématique les plus difficiles. Le code est disponible à l'adresse : https://github.com/kaiwenzha/rl-tango.

English

Reinforcement learning (RL) has recently emerged as a compelling approach for enhancing the reasoning capabilities of large language models (LLMs), where an LLM generator serves as a policy guided by a verifier (reward model). However, current RL post-training methods for LLMs typically use verifiers that are fixed (rule-based or frozen pretrained) or trained discriminatively via supervised fine-tuning (SFT). Such designs are susceptible to reward hacking and generalize poorly beyond their training distributions. To overcome these limitations, we propose Tango, a novel framework that uses RL to concurrently train both an LLM generator and a verifier in an interleaved manner. A central innovation of Tango is its generative, process-level LLM verifier, which is trained via RL and co-evolves with the generator. Importantly, the verifier is trained solely based on outcome-level verification correctness rewards without requiring explicit process-level annotations. This generative RL-trained verifier exhibits improved robustness and superior generalization compared to deterministic or SFT-trained verifiers, fostering effective mutual reinforcement with the generator. Extensive experiments demonstrate that both components of Tango achieve state-of-the-art results among 7B/8B-scale models: the generator attains best-in-class performance across five competition-level math benchmarks and four challenging out-of-domain reasoning tasks, while the verifier leads on the ProcessBench dataset. Remarkably, both components exhibit particularly substantial improvements on the most difficult mathematical reasoning problems. Code is at: https://github.com/kaiwenzha/rl-tango.

RL Tango : Renforcement conjoint du générateur et du vérificateur pour le raisonnement linguistique

RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

papers.abstract

Support