ChatPaper.aiChatPaper

Aprendizado por Reforço com Recompensas Verificáveis Incentiva Implicitamente o Raciocínio Correto em LLMs Base

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

June 17, 2025
Autores: Xumeng Wen, Zihan Liu, Shun Zheng, Zhijian Xu, Shengyu Ye, Zhirong Wu, Xiao Liang, Yang Wang, Junjie Li, Ziming Miao, Jiang Bian, Mao Yang
cs.AI

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) surgiu como um paradigma promissor para avançar as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, um paradoxo crítico obscurece sua eficácia: modelos ajustados com RLVR frequentemente têm desempenho inferior aos modelos base na métrica Pass@K para encontrar soluções, levando à hipótese de que o RLVR apenas reajusta os caminhos de raciocínio existentes em detrimento da diversidade de raciocínio. Neste trabalho, resolvemos essa contradição ao identificar a origem do problema: a métrica Pass@K em si é uma medida falha de raciocínio, pois credita respostas finais corretas que provavelmente surgem de cadeias de pensamento (CoTs) imprecisas ou incompletas. Para abordar isso, introduzimos uma métrica de avaliação mais precisa, CoT-Pass@K, que exige que tanto o caminho de raciocínio quanto a resposta final estejam corretos. Fornecemos uma nova base teórica que formaliza como o RLVR, ao contrário do RL tradicional, é estruturado de forma única para incentivar a integridade lógica. Nossos resultados empíricos são favoráveis: usando CoT-Pass@K, observamos que o RLVR pode incentivar a generalização do raciocínio correto para todos os valores de K. Além disso, ao analisar a dinâmica de treinamento, descobrimos que essa capacidade aprimorada de raciocínio emerge cedo no processo de treinamento e se generaliza suavemente. Nosso trabalho oferece uma perspectiva clara sobre o papel do RLVR, propõe um método mais confiável para sua avaliação e confirma seu potencial para avançar genuinamente o raciocínio das máquinas.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising paradigm for advancing the reasoning capabilities of Large Language Models (LLMs). However, a critical paradox clouds its efficacy: RLVR-tuned models often underperform their base models on the Pass@K metric for solution-finding, leading to the hypothesis that RLVR merely re-weights existing reasoning paths at the cost of reasoning diversity. In this work, we resolve this contradiction by identifying the source of the problem: the Pass@K metric itself is a flawed measure of reasoning, as it credits correct final answers that probably arise from inaccurate or incomplete chains of thought (CoTs). To address this, we introduce a more precise evaluation metric, CoT-Pass@K, which mandates that both the reasoning path and the final answer be correct. We provide a new theoretical foundation that formalizes how RLVR, unlike traditional RL, is uniquely structured to incentivize logical integrity. Our empirical results are supportive: using CoT-Pass@K, we observe that RLVR can incentivize the generalization of correct reasoning for all values of K. Furthermore, by analyzing the training dynamics, we find that this enhanced reasoning capability emerges early in the training process and smoothly generalizes. Our work provides a clear perspective on the role of RLVR, offers a more reliable method for its evaluation, and confirms its potential to genuinely advance machine reasoning.
PDF398June 18, 2025