RL Tango: Reforçando Gerador e Verificador em Conjunto para Raciocínio em Linguagem

Resumo

O aprendizado por reforço (RL, na sigla em inglês) surgiu recentemente como uma abordagem convincente para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs, na sigla em inglês), onde um gerador LLM atua como uma política guiada por um verificador (modelo de recompensa). No entanto, os métodos atuais de pós-treinamento de RL para LLMs geralmente utilizam verificadores que são fixos (baseados em regras ou pré-treinados e congelados) ou treinados de forma discriminativa por meio de ajuste fino supervisionado (SFT, na sigla em inglês). Tais projetos são suscetíveis a manipulação de recompensas e generalizam mal além de suas distribuições de treinamento. Para superar essas limitações, propomos o Tango, uma estrutura inovadora que utiliza RL para treinar simultaneamente tanto um gerador LLM quanto um verificador de maneira intercalada. Uma inovação central do Tango é seu verificador LLM generativo em nível de processo, que é treinado via RL e co-evolui com o gerador. Importante destacar que o verificador é treinado exclusivamente com base em recompensas de correção de verificação em nível de resultado, sem exigir anotações explícitas em nível de processo. Esse verificador treinado por RL generativo exibe maior robustez e generalização superior em comparação com verificadores determinísticos ou treinados por SFT, promovendo um reforço mútuo eficaz com o gerador. Experimentos extensivos demonstram que ambos os componentes do Tango alcançam resultados de ponta entre modelos de escala 7B/8B: o gerador atinge desempenho de classe superior em cinco benchmarks de matemática de nível competitivo e quatro tarefas desafiadoras de raciocínio fora do domínio, enquanto o verificador lidera no conjunto de dados ProcessBench. Notavelmente, ambos os componentes exibem melhorias particularmente substanciais nos problemas mais difíceis de raciocínio matemático. O código está disponível em: https://github.com/kaiwenzha/rl-tango.

English

Reinforcement learning (RL) has recently emerged as a compelling approach for enhancing the reasoning capabilities of large language models (LLMs), where an LLM generator serves as a policy guided by a verifier (reward model). However, current RL post-training methods for LLMs typically use verifiers that are fixed (rule-based or frozen pretrained) or trained discriminatively via supervised fine-tuning (SFT). Such designs are susceptible to reward hacking and generalize poorly beyond their training distributions. To overcome these limitations, we propose Tango, a novel framework that uses RL to concurrently train both an LLM generator and a verifier in an interleaved manner. A central innovation of Tango is its generative, process-level LLM verifier, which is trained via RL and co-evolves with the generator. Importantly, the verifier is trained solely based on outcome-level verification correctness rewards without requiring explicit process-level annotations. This generative RL-trained verifier exhibits improved robustness and superior generalization compared to deterministic or SFT-trained verifiers, fostering effective mutual reinforcement with the generator. Extensive experiments demonstrate that both components of Tango achieve state-of-the-art results among 7B/8B-scale models: the generator attains best-in-class performance across five competition-level math benchmarks and four challenging out-of-domain reasoning tasks, while the verifier leads on the ProcessBench dataset. Remarkably, both components exhibit particularly substantial improvements on the most difficult mathematical reasoning problems. Code is at: https://github.com/kaiwenzha/rl-tango.

RL Tango: Reforçando Gerador e Verificador em Conjunto para Raciocínio em Linguagem

RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning

Resumo

Support