RL Tango: Gemeinsame Verstärkung von Generator und Verifizierer für Sprachlogik
RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning
May 21, 2025
Autoren: Kaiwen Zha, Zhengqi Gao, Maohao Shen, Zhang-Wei Hong, Duane S. Boning, Dina Katabi
cs.AI
Zusammenfassung
Reinforcement Learning (RL) hat sich kürzlich als vielversprechender Ansatz zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens erwiesen, wobei ein LLM-Generator als Policy fungiert, die von einem Verifizierer (Belohnungsmodell) gesteuert wird. Allerdings verwenden aktuelle RL-Nachtrainingsmethoden für LLMs typischerweise Verifizierer, die entweder festgelegt sind (regelbasiert oder eingefrorene vortrainierte Modelle) oder diskriminativ durch überwachtes Feinabstimmen (SFT) trainiert werden. Solche Ansätze sind anfällig für Reward Hacking und generalisieren schlecht über ihre Trainingsverteilungen hinaus. Um diese Einschränkungen zu überwinden, schlagen wir Tango vor, ein neuartiges Framework, das RL nutzt, um sowohl einen LLM-Generator als auch einen Verifizierer in einem verschachtelten Verfahren gleichzeitig zu trainieren. Eine zentrale Innovation von Tango ist sein generativer, prozessbasierter LLM-Verifizierer, der durch RL trainiert wird und sich gemeinsam mit dem Generator weiterentwickelt. Wichtig ist, dass der Verifizierer ausschließlich auf der Grundlage von Ergebnisverifikationskorrektheitsbelohnungen trainiert wird, ohne explizite prozessbasierte Annotationen zu benötigen. Dieser generativ durch RL trainierte Verifizierer zeigt eine verbesserte Robustheit und überlegene Generalisierungsfähigkeit im Vergleich zu deterministischen oder SFT-trainierten Verifizierern und fördert eine effektive gegenseitige Verstärkung mit dem Generator. Umfangreiche Experimente zeigen, dass beide Komponenten von Tango Spitzenergebnisse unter Modellen im 7B/8B-Maßstab erzielen: Der Generator erreicht Bestwerte in fünf wettbewerbsorientierten mathematischen Benchmarks und vier anspruchsvollen domänenübergreifenden Denkaufgaben, während der Verifizierer im ProcessBench-Datensatz führend ist. Bemerkenswert ist, dass beide Komponenten insbesondere bei den schwierigsten mathematischen Denkproblemen erhebliche Verbesserungen zeigen. Der Code ist verfügbar unter: https://github.com/kaiwenzha/rl-tango.
English
Reinforcement learning (RL) has recently emerged as a compelling approach for
enhancing the reasoning capabilities of large language models (LLMs), where an
LLM generator serves as a policy guided by a verifier (reward model). However,
current RL post-training methods for LLMs typically use verifiers that are
fixed (rule-based or frozen pretrained) or trained discriminatively via
supervised fine-tuning (SFT). Such designs are susceptible to reward hacking
and generalize poorly beyond their training distributions. To overcome these
limitations, we propose Tango, a novel framework that uses RL to concurrently
train both an LLM generator and a verifier in an interleaved manner. A central
innovation of Tango is its generative, process-level LLM verifier, which is
trained via RL and co-evolves with the generator. Importantly, the verifier is
trained solely based on outcome-level verification correctness rewards without
requiring explicit process-level annotations. This generative RL-trained
verifier exhibits improved robustness and superior generalization compared to
deterministic or SFT-trained verifiers, fostering effective mutual
reinforcement with the generator. Extensive experiments demonstrate that both
components of Tango achieve state-of-the-art results among 7B/8B-scale models:
the generator attains best-in-class performance across five competition-level
math benchmarks and four challenging out-of-domain reasoning tasks, while the
verifier leads on the ProcessBench dataset. Remarkably, both components exhibit
particularly substantial improvements on the most difficult mathematical
reasoning problems. Code is at: https://github.com/kaiwenzha/rl-tango.Summary
AI-Generated Summary