RL Tango: Rafforzamento Congiunto di Generatore e Verificatore per il Ragionamento Linguistico

Abstract

L'apprendimento per rinforzo (RL) è emerso recentemente come un approccio convincente per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM), in cui un generatore LLM funge da politica guidata da un verificatore (modello di ricompensa). Tuttavia, i metodi attuali di post-addestramento RL per gli LLM utilizzano tipicamente verificatori che sono fissi (basati su regole o pre-addestrati e congelati) o addestrati in modo discriminativo tramite fine-tuning supervisionato (SFT). Tali design sono suscettibili a manipolazioni delle ricompense e generalizzano male oltre le loro distribuzioni di addestramento. Per superare queste limitazioni, proponiamo Tango, un nuovo framework che utilizza RL per addestrare contemporaneamente sia un generatore LLM che un verificatore in modo intervallato. Un'innovazione centrale di Tango è il suo verificatore LLM generativo a livello di processo, che viene addestrato tramite RL e co-evolve con il generatore. È importante sottolineare che il verificatore viene addestrato esclusivamente sulla base di ricompense di correttezza della verifica a livello di risultato, senza richiedere annotazioni esplicite a livello di processo. Questo verificatore generativo addestrato con RL mostra una maggiore robustezza e una superiore generalizzazione rispetto ai verificatori deterministici o addestrati con SFT, favorendo un efficace rinforzo reciproco con il generatore. Esperimenti estensivi dimostrano che entrambe le componenti di Tango raggiungono risultati all'avanguardia tra i modelli di scala 7B/8B: il generatore ottiene prestazioni di prim'ordine su cinque benchmark matematici di livello competitivo e quattro compiti di ragionamento fuori dominio particolarmente impegnativi, mentre il verificatore eccelle sul dataset ProcessBench. Notevolmente, entrambe le componenti mostrano miglioramenti particolarmente significativi sui problemi di ragionamento matematico più difficili. Il codice è disponibile su: https://github.com/kaiwenzha/rl-tango.

English

Reinforcement learning (RL) has recently emerged as a compelling approach for enhancing the reasoning capabilities of large language models (LLMs), where an LLM generator serves as a policy guided by a verifier (reward model). However, current RL post-training methods for LLMs typically use verifiers that are fixed (rule-based or frozen pretrained) or trained discriminatively via supervised fine-tuning (SFT). Such designs are susceptible to reward hacking and generalize poorly beyond their training distributions. To overcome these limitations, we propose Tango, a novel framework that uses RL to concurrently train both an LLM generator and a verifier in an interleaved manner. A central innovation of Tango is its generative, process-level LLM verifier, which is trained via RL and co-evolves with the generator. Importantly, the verifier is trained solely based on outcome-level verification correctness rewards without requiring explicit process-level annotations. This generative RL-trained verifier exhibits improved robustness and superior generalization compared to deterministic or SFT-trained verifiers, fostering effective mutual reinforcement with the generator. Extensive experiments demonstrate that both components of Tango achieve state-of-the-art results among 7B/8B-scale models: the generator attains best-in-class performance across five competition-level math benchmarks and four challenging out-of-domain reasoning tasks, while the verifier leads on the ProcessBench dataset. Remarkably, both components exhibit particularly substantial improvements on the most difficult mathematical reasoning problems. Code is at: https://github.com/kaiwenzha/rl-tango.

RL Tango: Rafforzamento Congiunto di Generatore e Verificatore per il Ragionamento Linguistico

RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

Abstract

Support