ChatPaper.aiChatPaper

¿El Aprendizaje por Refuerzo Realmente Incentiva la Capacidad de Razonamiento en los LLMs más Allá del Modelo Base?

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

April 18, 2025
Autores: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha demostrado recientemente un éxito notable en la mejora de las capacidades de razonamiento de los LLMs, particularmente en tareas de matemáticas y programación. Se cree ampliamente que el RLVR permite a los LLMs mejorarse continuamente, adquiriendo así habilidades de razonamiento novedosas que superan la capacidad de los modelos base correspondientes. En este estudio, sin embargo, reexaminamos críticamente esta suposición midiendo la métrica pass@k con valores grandes de k para explorar el límite de la capacidad de razonamiento de los modelos en una amplia gama de familias de modelos y benchmarks. Sorprendentemente, el RL no induce, de hecho, patrones de razonamiento fundamentalmente nuevos. Si bien los modelos entrenados con RL superan a sus modelos base en valores más pequeños de k (por ejemplo, k=1), los modelos base pueden alcanzar un puntaje pass@k comparable o incluso mayor en comparación con sus contrapartes entrenadas con RL en valores grandes de k. Las rutas de razonamiento generadas por los modelos entrenados con RL ya están incluidas en la distribución de muestreo de los modelos base, lo que sugiere que la mayoría de las habilidades de razonamiento manifestadas en los modelos entrenados con RL ya son obtenidas por los modelos base. Un análisis adicional muestra que el entrenamiento con RL mejora el rendimiento al sesgar la distribución de salida del modelo hacia rutas que tienen más probabilidades de generar recompensas, muestreando así respuestas correctas de manera más eficiente. Pero esto también resulta en un límite de capacidad de razonamiento más estrecho en comparación con los modelos base. Se observan resultados similares en tareas de razonamiento visual entrenadas con RLVR. Además, encontramos que la destilación puede introducir genuinamente nuevos conocimientos en el modelo, a diferencia del RLVR. Estos hallazgos subrayan una limitación crítica del RLVR en el avance de las habilidades de razonamiento de los LLMs, lo que nos obliga a repensar fundamentalmente el impacto del entrenamiento con RL en los LLMs de razonamiento y la necesidad de un mejor paradigma. Página del proyecto: https://limit-of-RLVR.github.io
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated notable success in enhancing the reasoning capabilities of LLMs, particularly in mathematics and programming tasks. It is widely believed that RLVR enables LLMs to continuously self-improve, thus acquiring novel reasoning abilities that exceed corresponding base models' capacity. In this study, however, we critically re-examines this assumption by measuring the pass@k metric with large values of k to explore the reasoning capability boundary of the models across a wide range of model families and benchmarks. Surprisingly, the RL does not, in fact, elicit fundamentally new reasoning patterns. While RL-trained models outperform their base models at smaller values of k (\eg, k=1), base models can achieve a comparable or even higher pass@k score compared to their RL counterparts at large k values. The reasoning paths generated by RL-trained models are already included in the base models' sampling distribution, suggesting that most reasoning abilities manifested in RL-trained models are already obtained by base models. Further analysis shows that RL training boosts the performance by biasing the model's output distribution toward paths that are more likely to yield rewards, therefore sampling correct responses more efficiently. But this also results in a narrower reasoning capability boundary compared to base models. Similar results are observed in visual reasoning tasks trained with RLVR. Moreover, we find that distillation can genuinely introduce new knowledge into the model, different from RLVR. These findings underscore a critical limitation of RLVR in advancing LLM reasoning abilities which requires us to fundamentally rethink the impact of RL training in reasoning LLMs and the need of a better paradigm. Project Page: https://limit-of-RLVR.github.io

Summary

AI-Generated Summary

PDF11621April 21, 2025