El Aprendizaje por Refuerzo con Recompensas Verificables Incentiva Implícitamente el Razonamiento Correcto en Modelos de Lenguaje Base
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs
June 17, 2025
Autores: Xumeng Wen, Zihan Liu, Shun Zheng, Zhijian Xu, Shengyu Ye, Zhirong Wu, Xiao Liang, Yang Wang, Junjie Li, Ziming Miao, Jiang Bian, Mao Yang
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un paradigma prometedor para avanzar en las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, una paradoja crítica opaca su eficacia: los modelos ajustados con RLVR a menudo tienen un rendimiento inferior al de sus modelos base en la métrica Pass@K para la búsqueda de soluciones, lo que lleva a la hipótesis de que RLVR simplemente re-pondera las rutas de razonamiento existentes a costa de la diversidad de razonamiento. En este trabajo, resolvemos esta contradicción identificando la fuente del problema: la métrica Pass@K en sí misma es una medida defectuosa del razonamiento, ya que otorga crédito a respuestas finales correctas que probablemente surgen de cadenas de pensamiento (CoTs, por sus siglas en inglés) inexactas o incompletas. Para abordar esto, introducimos una métrica de evaluación más precisa, CoT-Pass@K, que exige que tanto la ruta de razonamiento como la respuesta final sean correctas. Proporcionamos una nueva base teórica que formaliza cómo RLVR, a diferencia del aprendizaje por refuerzo tradicional, está estructurado de manera única para incentivar la integridad lógica. Nuestros resultados empíricos son alentadores: utilizando CoT-Pass@K, observamos que RLVR puede incentivar la generalización del razonamiento correcto para todos los valores de K. Además, al analizar la dinámica del entrenamiento, encontramos que esta capacidad de razonamiento mejorada emerge temprano en el proceso de entrenamiento y se generaliza de manera fluida. Nuestro trabajo proporciona una perspectiva clara sobre el papel de RLVR, ofrece un método más confiable para su evaluación y confirma su potencial para avanzar genuinamente en el razonamiento automático.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a
promising paradigm for advancing the reasoning capabilities of Large Language
Models (LLMs). However, a critical paradox clouds its efficacy: RLVR-tuned
models often underperform their base models on the Pass@K metric for
solution-finding, leading to the hypothesis that RLVR merely re-weights
existing reasoning paths at the cost of reasoning diversity. In this work, we
resolve this contradiction by identifying the source of the problem: the
Pass@K metric itself is a flawed measure of reasoning, as it credits correct
final answers that probably arise from inaccurate or incomplete chains of
thought (CoTs). To address this, we introduce a more precise evaluation metric,
CoT-Pass@K, which mandates that both the reasoning path and the final
answer be correct. We provide a new theoretical foundation that formalizes how
RLVR, unlike traditional RL, is uniquely structured to incentivize logical
integrity. Our empirical results are supportive: using CoT-Pass@K, we
observe that RLVR can incentivize the generalization of correct reasoning for
all values of K. Furthermore, by analyzing the training dynamics, we find
that this enhanced reasoning capability emerges early in the training process
and smoothly generalizes. Our work provides a clear perspective on the role of
RLVR, offers a more reliable method for its evaluation, and confirms its
potential to genuinely advance machine reasoning.