Обучение с подкреплением с верифицируемыми наградами неявно стимулирует корректные рассуждения в базовых языковых моделях (LLM).
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs
June 17, 2025
Авторы: Xumeng Wen, Zihan Liu, Shun Zheng, Zhijian Xu, Shengyu Ye, Zhirong Wu, Xiao Liang, Yang Wang, Junjie Li, Ziming Miao, Jiang Bian, Mao Yang
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало перспективной парадигмой для улучшения способностей к рассуждению у крупных языковых моделей (LLM). Однако критический парадокс омрачает его эффективность: модели, настроенные с помощью RLVR, часто показывают худшие результаты по метрике Pass@K для поиска решений, что приводит к гипотезе, что RLVR лишь перераспределяет вес существующих путей рассуждения за счет их разнообразия. В данной работе мы разрешаем это противоречие, выявляя источник проблемы: сама метрика Pass@K является несовершенной мерой рассуждения, так как она засчитывает правильные конечные ответы, которые, вероятно, возникают из неточных или неполных цепочек рассуждений (CoT). Чтобы устранить это, мы вводим более точную метрику оценки, CoT-Pass@K, которая требует, чтобы как путь рассуждения, так и конечный ответ были правильными. Мы предлагаем новую теоретическую основу, формализующую, как RLVR, в отличие от традиционного обучения с подкреплением, уникально структурирован для стимулирования логической целостности. Наши эмпирические результаты подтверждают это: используя CoT-Pass@K, мы наблюдаем, что RLVR может стимулировать обобщение правильных рассуждений для всех значений K. Более того, анализируя динамику обучения, мы обнаруживаем, что эта улучшенная способность к рассуждению проявляется на ранних этапах процесса обучения и плавно обобщается. Наша работа дает четкое представление о роли RLVR, предлагает более надежный метод его оценки и подтверждает его потенциал для подлинного прогресса в машинном рассуждении.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
promising paradigm for advancing the reasoning capabilities of Large Language
Models (LLMs). However, a critical paradox clouds its efficacy: RLVR-tuned
models often underperform their base models on the Pass@K metric for
solution-finding, leading to the hypothesis that RLVR merely re-weights
existing reasoning paths at the cost of reasoning diversity. In this work, we
resolve this contradiction by identifying the source of the problem: the
Pass@K metric itself is a flawed measure of reasoning, as it credits correct
final answers that probably arise from inaccurate or incomplete chains of
thought (CoTs). To address this, we introduce a more precise evaluation metric,
CoT-Pass@K, which mandates that both the reasoning path and the final
answer be correct. We provide a new theoretical foundation that formalizes how
RLVR, unlike traditional RL, is uniquely structured to incentivize logical
integrity. Our empirical results are supportive: using CoT-Pass@K, we
observe that RLVR can incentivize the generalization of correct reasoning for
all values of K. Furthermore, by analyzing the training dynamics, we find
that this enhanced reasoning capability emerges early in the training process
and smoothly generalizes. Our work provides a clear perspective on the role of
RLVR, offers a more reliable method for its evaluation, and confirms its
potential to genuinely advance machine reasoning.