RL Tango: Совместное усиление генератора и верификатора для языковых рассуждений
RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning
May 21, 2025
Авторы: Kaiwen Zha, Zhengqi Gao, Maohao Shen, Zhang-Wei Hong, Duane S. Boning, Dina Katabi
cs.AI
Аннотация
Обучение с подкреплением (RL) недавно стало перспективным подходом для улучшения способностей крупных языковых моделей (LLM) к рассуждению, где генератор LLM выступает в роли политики, управляемой верификатором (моделью вознаграждения). Однако современные методы пост-обучения RL для LLM обычно используют верификаторы, которые фиксированы (основаны на правилах или заморожены после предварительного обучения) или обучены дискриминативно с помощью контролируемого тонкого настройки (SFT). Такие подходы уязвимы к взлому вознаграждения и плохо обобщаются за пределы своих обучающих распределений. Чтобы преодолеть эти ограничения, мы предлагаем Tango — новый фреймворк, который использует RL для одновременного обучения как генератора LLM, так и верификатора в чередующемся режиме. Ключевым нововведением Tango является его генеративный верификатор на уровне процессов, который обучается с помощью RL и совместно эволюционирует с генератором. Важно отметить, что верификатор обучается исключительно на основе вознаграждений за корректность верификации на уровне результатов, не требуя явных аннотаций на уровне процессов. Такой генеративный верификатор, обученный с помощью RL, демонстрирует повышенную устойчивость и превосходное обобщение по сравнению с детерминированными или обученными через SFT верификаторами, способствуя эффективному взаимному усилению с генератором. Многочисленные эксперименты показывают, что обе компоненты Tango достигают передовых результатов среди моделей масштаба 7B/8B: генератор демонстрирует наилучшие результаты на пяти соревновательных математических бенчмарках и четырех сложных задачах рассуждения вне домена, а верификатор лидирует на наборе данных ProcessBench. Примечательно, что обе компоненты показывают особенно значительные улучшения на самых сложных задачах математического рассуждения. Код доступен по адресу: https://github.com/kaiwenzha/rl-tango.
English
Reinforcement learning (RL) has recently emerged as a compelling approach for
enhancing the reasoning capabilities of large language models (LLMs), where an
LLM generator serves as a policy guided by a verifier (reward model). However,
current RL post-training methods for LLMs typically use verifiers that are
fixed (rule-based or frozen pretrained) or trained discriminatively via
supervised fine-tuning (SFT). Such designs are susceptible to reward hacking
and generalize poorly beyond their training distributions. To overcome these
limitations, we propose Tango, a novel framework that uses RL to concurrently
train both an LLM generator and a verifier in an interleaved manner. A central
innovation of Tango is its generative, process-level LLM verifier, which is
trained via RL and co-evolves with the generator. Importantly, the verifier is
trained solely based on outcome-level verification correctness rewards without
requiring explicit process-level annotations. This generative RL-trained
verifier exhibits improved robustness and superior generalization compared to
deterministic or SFT-trained verifiers, fostering effective mutual
reinforcement with the generator. Extensive experiments demonstrate that both
components of Tango achieve state-of-the-art results among 7B/8B-scale models:
the generator attains best-in-class performance across five competition-level
math benchmarks and four challenging out-of-domain reasoning tasks, while the
verifier leads on the ProcessBench dataset. Remarkably, both components exhibit
particularly substantial improvements on the most difficult mathematical
reasoning problems. Code is at: https://github.com/kaiwenzha/rl-tango.Summary
AI-Generated Summary