Reinforcement Learning met verifieerbare beloningen stimuleert impliciet correct redeneren in basis-LLM's.
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs
June 17, 2025
Auteurs: Xumeng Wen, Zihan Liu, Shun Zheng, Zhijian Xu, Shengyu Ye, Zhirong Wu, Xiao Liang, Yang Wang, Junjie Li, Ziming Miao, Jiang Bian, Mao Yang
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een veelbelovend paradigma om de redeneervaardigheden van Large Language Models (LLMs) te verbeteren. Een kritieke paradox belemmerde echter de effectiviteit ervan: RLVR-getrainde modellen presteren vaak slechter dan hun basismodellen op de Pass@K-metric voor het vinden van oplossingen, wat leidde tot de hypothese dat RLVR slechts bestaande redeneerpaden herweegt ten koste van redeneerdiversiteit. In dit werk lossen we deze tegenstrijdigheid op door de bron van het probleem te identificeren: de Pass@K-metric zelf is een gebrekkige maatstaf voor redeneren, omdat het correcte eindantwoorden crediteert die waarschijnlijk voortkomen uit onnauwkeurige of onvolledige gedachtegangen (CoTs). Om dit aan te pakken, introduceren we een nauwkeurigere evaluatiemetric, CoT-Pass@K, die vereist dat zowel het redeneerpad als het eindantwoord correct zijn. We bieden een nieuwe theoretische basis die formaliseert hoe RLVR, in tegenstelling tot traditionele RL, uniek gestructureerd is om logische integriteit te stimuleren. Onze empirische resultaten zijn ondersteunend: met CoT-Pass@K observeren we dat RLVR de generalisatie van correct redeneren kan aanmoedigen voor alle waarden van K. Bovendien vinden we, door de trainingsdynamiek te analyseren, dat deze verbeterde redeneervaardigheid vroeg in het trainingsproces ontstaat en soepel generaliseert. Ons werk biedt een duidelijk perspectief op de rol van RLVR, stelt een betrouwbaardere evaluatiemethode voor en bevestigt het potentieel ervan om machinaal redeneren daadwerkelijk te bevorderen.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
promising paradigm for advancing the reasoning capabilities of Large Language
Models (LLMs). However, a critical paradox clouds its efficacy: RLVR-tuned
models often underperform their base models on the Pass@K metric for
solution-finding, leading to the hypothesis that RLVR merely re-weights
existing reasoning paths at the cost of reasoning diversity. In this work, we
resolve this contradiction by identifying the source of the problem: the
Pass@K metric itself is a flawed measure of reasoning, as it credits correct
final answers that probably arise from inaccurate or incomplete chains of
thought (CoTs). To address this, we introduce a more precise evaluation metric,
CoT-Pass@K, which mandates that both the reasoning path and the final
answer be correct. We provide a new theoretical foundation that formalizes how
RLVR, unlike traditional RL, is uniquely structured to incentivize logical
integrity. Our empirical results are supportive: using CoT-Pass@K, we
observe that RLVR can incentivize the generalization of correct reasoning for
all values of K. Furthermore, by analyzing the training dynamics, we find
that this enhanced reasoning capability emerges early in the training process
and smoothly generalizes. Our work provides a clear perspective on the role of
RLVR, offers a more reliable method for its evaluation, and confirms its
potential to genuinely advance machine reasoning.