RL Tango: Reforzando el Generador y el Verificador Juntos para el Razonamiento del Lenguaje
RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning
May 21, 2025
Autores: Kaiwen Zha, Zhengqi Gao, Maohao Shen, Zhang-Wei Hong, Duane S. Boning, Dina Katabi
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido recientemente como un enfoque convincente para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), donde un generador LLM actúa como una política guiada por un verificador (modelo de recompensa). Sin embargo, los métodos actuales de entrenamiento posterior con RL para LLMs suelen utilizar verificadores que están fijos (basados en reglas o preentrenados congelados) o entrenados de manera discriminativa mediante ajuste fino supervisado (SFT, por sus siglas en inglés). Dichos diseños son susceptibles a la manipulación de recompensas y generalizan pobremente más allá de sus distribuciones de entrenamiento. Para superar estas limitaciones, proponemos Tango, un marco novedoso que utiliza RL para entrenar concurrentemente tanto un generador LLM como un verificador de manera intercalada. Una innovación central de Tango es su verificador LLM generativo a nivel de proceso, que se entrena mediante RL y coevoluciona con el generador. Es importante destacar que el verificador se entrena únicamente en base a recompensas de corrección de verificación a nivel de resultado, sin requerir anotaciones explícitas a nivel de proceso. Este verificador generativo entrenado con RL exhibe una mayor robustez y una superior generalización en comparación con verificadores deterministas o entrenados con SFT, fomentando un refuerzo mutuo efectivo con el generador. Experimentos extensos demuestran que ambos componentes de Tango logran resultados de vanguardia entre modelos de escala 7B/8B: el generador alcanza un rendimiento líder en cinco benchmarks de matemáticas de nivel competitivo y cuatro tareas de razonamiento desafiantes fuera de dominio, mientras que el verificador lidera en el conjunto de datos ProcessBench. Notablemente, ambos componentes muestran mejoras particularmente sustanciales en los problemas de razonamiento matemático más difíciles. El código está disponible en: https://github.com/kaiwenzha/rl-tango.
English
Reinforcement learning (RL) has recently emerged as a compelling approach for
enhancing the reasoning capabilities of large language models (LLMs), where an
LLM generator serves as a policy guided by a verifier (reward model). However,
current RL post-training methods for LLMs typically use verifiers that are
fixed (rule-based or frozen pretrained) or trained discriminatively via
supervised fine-tuning (SFT). Such designs are susceptible to reward hacking
and generalize poorly beyond their training distributions. To overcome these
limitations, we propose Tango, a novel framework that uses RL to concurrently
train both an LLM generator and a verifier in an interleaved manner. A central
innovation of Tango is its generative, process-level LLM verifier, which is
trained via RL and co-evolves with the generator. Importantly, the verifier is
trained solely based on outcome-level verification correctness rewards without
requiring explicit process-level annotations. This generative RL-trained
verifier exhibits improved robustness and superior generalization compared to
deterministic or SFT-trained verifiers, fostering effective mutual
reinforcement with the generator. Extensive experiments demonstrate that both
components of Tango achieve state-of-the-art results among 7B/8B-scale models:
the generator attains best-in-class performance across five competition-level
math benchmarks and four challenging out-of-domain reasoning tasks, while the
verifier leads on the ProcessBench dataset. Remarkably, both components exhibit
particularly substantial improvements on the most difficult mathematical
reasoning problems. Code is at: https://github.com/kaiwenzha/rl-tango.Summary
AI-Generated Summary