ChatPaper.aiChatPaper

L'apprentissage par renforcement avec des récompenses vérifiables incite implicitement un raisonnement correct dans les modèles de langage de base (LLM).

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

June 17, 2025
Auteurs: Xumeng Wen, Zihan Liu, Shun Zheng, Zhijian Xu, Shengyu Ye, Zhirong Wu, Xiao Liang, Yang Wang, Junjie Li, Ziming Miao, Jiang Bian, Mao Yang
cs.AI

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est imposé comme un paradigme prometteur pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, un paradoxe critique entache son efficacité : les modèles ajustés par RLVR sous-performent souvent leurs modèles de base sur la métrique Pass@K pour la recherche de solutions, ce qui conduit à l'hypothèse que le RLVR se contente de rééquilibrer les chemins de raisonnement existants au détriment de la diversité du raisonnement. Dans ce travail, nous résolvons cette contradiction en identifiant la source du problème : la métrique Pass@K elle-même est une mesure imparfaite du raisonnement, car elle crédite des réponses finales correctes qui découlent probablement de chaînes de pensée (CoT) inexactes ou incomplètes. Pour y remédier, nous introduisons une métrique d'évaluation plus précise, CoT-Pass@K, qui exige que le chemin de raisonnement et la réponse finale soient tous deux corrects. Nous établissons un nouveau fondement théorique qui formalise comment le RLVR, contrairement à l'apprentissage par renforcement traditionnel, est structurellement conçu pour encourager l'intégrité logique. Nos résultats empiriques sont encourageants : en utilisant CoT-Pass@K, nous observons que le RLVR peut inciter à la généralisation d'un raisonnement correct pour toutes les valeurs de K. De plus, en analysant la dynamique d'entraînement, nous constatons que cette capacité de raisonnement améliorée émerge tôt dans le processus d'entraînement et se généralise de manière fluide. Notre travail offre une perspective claire sur le rôle du RLVR, propose une méthode d'évaluation plus fiable et confirme son potentiel à véritablement faire progresser le raisonnement machine.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). However, a critical paradox clouds its efficacy: RLVR-tuned models often underperform their base models on the Pass@K metric for solution-finding, leading to the hypothesis that RLVR merely re-weights existing reasoning paths at the cost of reasoning diversity. In this work, we resolve this contradiction by identifying the source of the problem: the Pass@K metric itself is a flawed measure of reasoning, as it credits correct final answers that probably arise from inaccurate or incomplete chains of thought (CoTs). To address this, we introduce a more precise evaluation metric, CoT-Pass@K, which mandates that both the reasoning path and the final answer be correct. We provide a new theoretical foundation that formalizes how RLVR, unlike traditional RL, is uniquely structured to incentivize logical integrity. Our empirical results are supportive: using CoT-Pass@K, we observe that RLVR can incentivize the generalization of correct reasoning for all values of K. Furthermore, by analyzing the training dynamics, we find that this enhanced reasoning capability emerges early in the training process and smoothly generalizes. Our work provides a clear perspective on the role of RLVR, offers a more reliable method for its evaluation, and confirms its potential to genuinely advance machine reasoning.
PDF335June 18, 2025