¿El Aprendizaje por Refuerzo Realmente Incentiva la Capacidad de Razonamiento en los LLMs más Allá del Modelo Base?Does Reinforcement Learning Really Incentivize Reasoning Capacity in
LLMs Beyond the Base Model?
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha demostrado recientemente un éxito notable en la mejora de las capacidades de razonamiento de los LLMs, particularmente en tareas de matemáticas y programación. Se cree ampliamente que el RLVR permite a los LLMs mejorarse continuamente, adquiriendo así habilidades de razonamiento novedosas que superan la capacidad de los modelos base correspondientes. En este estudio, sin embargo, reexaminamos críticamente esta suposición midiendo la métrica pass@k con valores grandes de k para explorar el límite de la capacidad de razonamiento de los modelos en una amplia gama de familias de modelos y benchmarks. Sorprendentemente, el RL no induce, de hecho, patrones de razonamiento fundamentalmente nuevos. Si bien los modelos entrenados con RL superan a sus modelos base en valores más pequeños de k (por ejemplo, k=1), los modelos base pueden alcanzar un puntaje pass@k comparable o incluso mayor en comparación con sus contrapartes entrenadas con RL en valores grandes de k. Las rutas de razonamiento generadas por los modelos entrenados con RL ya están incluidas en la distribución de muestreo de los modelos base, lo que sugiere que la mayoría de las habilidades de razonamiento manifestadas en los modelos entrenados con RL ya son obtenidas por los modelos base. Un análisis adicional muestra que el entrenamiento con RL mejora el rendimiento al sesgar la distribución de salida del modelo hacia rutas que tienen más probabilidades de generar recompensas, muestreando así respuestas correctas de manera más eficiente. Pero esto también resulta en un límite de capacidad de razonamiento más estrecho en comparación con los modelos base. Se observan resultados similares en tareas de razonamiento visual entrenadas con RLVR. Además, encontramos que la destilación puede introducir genuinamente nuevos conocimientos en el modelo, a diferencia del RLVR. Estos hallazgos subrayan una limitación crítica del RLVR en el avance de las habilidades de razonamiento de los LLMs, lo que nos obliga a repensar fundamentalmente el impacto del entrenamiento con RL en los LLMs de razonamiento y la necesidad de un mejor paradigma. Página del proyecto: https://limit-of-RLVR.github.io