Verstärkungslernen mit verifizierbaren Belohnungen fördert implizit korrektes Schlussfolgern in Basis-LLMs
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs
June 17, 2025
Autoren: Xumeng Wen, Zihan Liu, Shun Zheng, Zhijian Xu, Shengyu Ye, Zhirong Wu, Xiao Liang, Yang Wang, Junjie Li, Ziming Miao, Jiang Bian, Mao Yang
cs.AI
Zusammenfassung
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als vielversprechendes Paradigma zur Verbesserung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens erwiesen. Allerdings wird seine Wirksamkeit durch ein entscheidendes Paradoxon getrübt: RLVR-optimierte Modelle schneiden oft schlechter ab als ihre Basismodelle bei der Pass@K-Metrik zur Lösungsfindung, was zu der Hypothese führt, dass RLVR lediglich bestehende Denkpfade neu gewichtet, jedoch auf Kosten der Vielfalt des Denkens. In dieser Arbeit lösen wir diesen Widerspruch, indem wir die Ursache des Problems identifizieren: Die Pass@K-Metrik selbst ist ein fehlerhaftes Maß für das logische Denken, da sie korrekte Endantworten honoriert, die wahrscheinlich aus ungenauen oder unvollständigen Denkketten (Chains of Thought, CoTs) entstehen. Um dies zu beheben, führen wir eine präzisere Bewertungsmetrik ein, CoT-Pass@K, die sowohl den Denkpfad als auch die Endantwort korrekt bewertet. Wir legen eine neue theoretische Grundlage dar, die formalisiert, wie RLVR im Gegensatz zu traditionellem Reinforcement Learning (RL) einzigartig strukturiert ist, um logische Integrität zu fördern. Unsere empirischen Ergebnisse bestätigen dies: Mit CoT-Pass@K beobachten wir, dass RLVR die Verallgemeinerung korrekten Denkens für alle Werte von K fördern kann. Darüber hinaus zeigen unsere Analysen der Trainingsdynamik, dass diese verbesserte Denkfähigkeit früh im Trainingsprozess entsteht und sich reibungslos verallgemeinert. Unsere Arbeit bietet eine klare Perspektive auf die Rolle von RLVR, stellt eine zuverlässigere Methode zu seiner Bewertung bereit und bestätigt sein Potenzial, das maschinelle Denken tatsächlich voranzubringen.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
promising paradigm for advancing the reasoning capabilities of Large Language
Models (LLMs). However, a critical paradox clouds its efficacy: RLVR-tuned
models often underperform their base models on the Pass@K metric for
solution-finding, leading to the hypothesis that RLVR merely re-weights
existing reasoning paths at the cost of reasoning diversity. In this work, we
resolve this contradiction by identifying the source of the problem: the
Pass@K metric itself is a flawed measure of reasoning, as it credits correct
final answers that probably arise from inaccurate or incomplete chains of
thought (CoTs). To address this, we introduce a more precise evaluation metric,
CoT-Pass@K, which mandates that both the reasoning path and the final
answer be correct. We provide a new theoretical foundation that formalizes how
RLVR, unlike traditional RL, is uniquely structured to incentivize logical
integrity. Our empirical results are supportive: using CoT-Pass@K, we
observe that RLVR can incentivize the generalization of correct reasoning for
all values of K. Furthermore, by analyzing the training dynamics, we find
that this enhanced reasoning capability emerges early in the training process
and smoothly generalizes. Our work provides a clear perspective on the role of
RLVR, offers a more reliable method for its evaluation, and confirms its
potential to genuinely advance machine reasoning.