De Cadenas de Razonamiento a Subproblemas Verificables: El Aprendizaje por Refuerzo Curricular Permite la Asignación de Crédito para el Razonamiento de LLMs

Resumen

El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) ha mostrado un gran potencial para el razonamiento de LLM, pero el RLVR basado en resultados sigue siendo ineficiente en problemas difíciles, ya que los despliegues correctos de la respuesta final son escasos y la asignación de crédito a nivel de muestra no puede aprovechar el progreso parcial en intentos fallidos. Introducimos SCRL (Aprendizaje por Refuerzo Curricular con Subproblemas), un marco de aprendizaje por refuerzo curricular que deriva subproblemas verificables a partir de cadenas de razonamiento de referencia y fija el subproblema final como el problema original. Esto convierte el progreso parcial en problemas difíciles en señales de aprendizaje verificables. Algorítmicamente, SCRL utiliza una normalización a nivel de subproblema, que normaliza las recompensas de manera independiente en cada posición de subproblema y asigna las ventajas resultantes a los segmentos de respuesta correspondientes, permitiendo una asignación de crédito más granular sin rúbricas externas ni modelos de recompensa. Nuestro análisis muestra que los currículos de subproblemas sacan a los problemas difíciles de las zonas muertas de gradiente, con mayores ganancias relativas a medida que el problema original se vuelve más difícil. En siete conjuntos de referencia de razonamiento matemático, SCRL supera a los métodos de referencia de aprendizaje curricular sólidos, mejorando la precisión promedio frente a GRPO en +4.1 puntos en Qwen3-4B-Base y +1.9 puntos en Qwen3-14B-Base. En AIME24, AIME25 e IMO-Bench, SCRL mejora adicionalmente pass@1 en +3.7 puntos y pass@64 en +4.6 puntos en Qwen3-4B-Base, lo que indica una mejor exploración en problemas de razonamiento difíciles.

English

Reinforcement learning from verifiable rewards (RLVR) has shown strong promise for LLM reasoning, but outcome-based RLVR remains inefficient on hard problems because correct final-answer rollouts are rare and sample-level credit assignment cannot use partial progress in failed attempts. We introduce SCRL (Subproblem Curriculum Reinforcement Learning), a curriculum RL framework that derives verifiable subproblems from reference reasoning chains and fixes the final subproblem as the original problem. This turns partial progress on hard problems into verifiable learning signals. Algorithmically, SCRL uses subproblem-level normalization, which normalizes rewards independently at each subproblem position and assigns the resulting advantages to the corresponding answer spans, enabling finer-grained credit assignment without external rubrics or reward models. Our analysis shows that subproblem curricula lift hard problems out of gradient dead zones, with larger relative gains as the original problem becomes harder. Across seven mathematical reasoning benchmarks, SCRL outperforms strong curriculum-learning baselines, improving average accuracy over GRPO by +4.1 points on Qwen3-4B-Base and +1.9 points on Qwen3-14B-Base. On AIME24, AIME25, and IMO-Bench, SCRL further improves pass@1 by +3.7 points and pass@64 by +4.6 points on Qwen3-4B-Base, indicating better exploration on hard reasoning problems.