RL Tango: Generator en Verifier Gezamenlijk Versterken voor Taalredenering
RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning
May 21, 2025
Auteurs: Kaiwen Zha, Zhengqi Gao, Maohao Shen, Zhang-Wei Hong, Duane S. Boning, Dina Katabi
cs.AI
Samenvatting
Reinforcement learning (RL) is recentelijk naar voren gekomen als een overtuigende aanpak om de redeneervaardigheden van grote taalmodelen (LLMs) te verbeteren, waarbij een LLM-generator fungeert als een beleid dat wordt geleid door een verifier (beloningsmodel). Echter, huidige RL-methoden voor post-training van LLMs gebruiken doorgaans verifiers die vaststaan (regelgebaseerd of bevroren voorgetraind) of discriminatief getraind zijn via supervised fine-tuning (SFT). Dergelijke ontwerpen zijn gevoelig voor reward hacking en generaliseren slecht buiten hun trainingsdistributies. Om deze beperkingen te overwinnen, stellen we Tango voor, een nieuw framework dat RL gebruikt om zowel een LLM-generator als een verifier gelijktijdig te trainen op een interleaved manier. Een centrale innovatie van Tango is zijn generatieve, procesniveau LLM-verifier, die via RL wordt getraind en co-evolueert met de generator. Belangrijk is dat de verifier uitsluitend wordt getraind op basis van outcome-level verificatiecorrectheidsbeloningen, zonder expliciete procesniveau annotaties te vereisen. Deze generatieve RL-getrainde verifier toont verbeterde robuustheid en superieure generalisatie in vergelijking met deterministische of SFT-getrainde verifiers, wat effectieve wederzijdse versterking met de generator bevordert. Uitgebreide experimenten tonen aan dat beide componenten van Tango state-of-the-art resultaten behalen onder 7B/8B-schaalmodellen: de generator bereikt de beste prestaties op vijf competitieniveau wiskundige benchmarks en vier uitdagende out-of-domain redeneertaken, terwijl de verifier leidt op de ProcessBench dataset. Opmerkelijk is dat beide componenten vooral aanzienlijke verbeteringen laten zien op de meest moeilijke wiskundige redeneerproblemen. Code is beschikbaar op: https://github.com/kaiwenzha/rl-tango.
English
Reinforcement learning (RL) has recently emerged as a compelling approach for
enhancing the reasoning capabilities of large language models (LLMs), where an
LLM generator serves as a policy guided by a verifier (reward model). However,
current RL post-training methods for LLMs typically use verifiers that are
fixed (rule-based or frozen pretrained) or trained discriminatively via
supervised fine-tuning (SFT). Such designs are susceptible to reward hacking
and generalize poorly beyond their training distributions. To overcome these
limitations, we propose Tango, a novel framework that uses RL to concurrently
train both an LLM generator and a verifier in an interleaved manner. A central
innovation of Tango is its generative, process-level LLM verifier, which is
trained via RL and co-evolves with the generator. Importantly, the verifier is
trained solely based on outcome-level verification correctness rewards without
requiring explicit process-level annotations. This generative RL-trained
verifier exhibits improved robustness and superior generalization compared to
deterministic or SFT-trained verifiers, fostering effective mutual
reinforcement with the generator. Extensive experiments demonstrate that both
components of Tango achieve state-of-the-art results among 7B/8B-scale models:
the generator attains best-in-class performance across five competition-level
math benchmarks and four challenging out-of-domain reasoning tasks, while the
verifier leads on the ProcessBench dataset. Remarkably, both components exhibit
particularly substantial improvements on the most difficult mathematical
reasoning problems. Code is at: https://github.com/kaiwenzha/rl-tango.