De Cadeias de Raciocínio a Subproblemas Verificáveis: A Aprendizagem por Reforço Curricular Possibilita a Atribuição de Crédito para o Raciocínio de LLMs

Resumo

O aprendizado por reforço a partir de recompensas verificáveis (RLVR) tem demonstrado grande potencial para o raciocínio de LLMs, mas o RLVR baseado em resultados permanece ineficiente em problemas difíceis porque as respostas finais corretas são raras e a atribuição de crédito a nível de amostra não consegue utilizar o progresso parcial em tentativas fracassadas. Apresentamos o SCRL (Aprendizado por Reforço com Currículo de Subproblemas), uma estrutura de RL baseada em currículo que deriva subproblemas verificáveis a partir de cadeias de raciocínio de referência e fixa o subproblema final como o problema original. Isso transforma o progresso parcial em problemas difíceis em sinais de aprendizado verificáveis. Algorítmicamente, o SCRL utiliza normalização a nível de subproblema, que normaliza recompensas independentemente em cada posição de subproblema e atribui as vantagens resultantes aos trechos de resposta correspondentes, permitindo uma atribuição de crédito mais refinada sem rubricas externas ou modelos de recompensa. Nossa análise mostra que currículos de subproblemas retiram problemas difíceis das zonas mortas de gradiente, com ganhos relativos maiores à medida que o problema original se torna mais difícil. Em sete benchmarks de raciocínio matemático, o SCRL supera fortes linhas de base de aprendizado por currículo, melhorando a precisão média em relação ao GRPO em +4,1 pontos no Qwen3-4B-Base e +1,9 pontos no Qwen3-14B-Base. No AIME24, AIME25 e IMO-Bench, o SCRL melhora ainda mais o pass@1 em +3,7 pontos e o pass@64 em +4,6 pontos no Qwen3-4B-Base, indicando melhor exploração em problemas de raciocínio difíceis.

English

Reinforcement learning from verifiable rewards (RLVR) has shown strong promise for LLM reasoning, but outcome-based RLVR remains inefficient on hard problems because correct final-answer rollouts are rare and sample-level credit assignment cannot use partial progress in failed attempts. We introduce SCRL (Subproblem Curriculum Reinforcement Learning), a curriculum RL framework that derives verifiable subproblems from reference reasoning chains and fixes the final subproblem as the original problem. This turns partial progress on hard problems into verifiable learning signals. Algorithmically, SCRL uses subproblem-level normalization, which normalizes rewards independently at each subproblem position and assigns the resulting advantages to the corresponding answer spans, enabling finer-grained credit assignment without external rubrics or reward models. Our analysis shows that subproblem curricula lift hard problems out of gradient dead zones, with larger relative gains as the original problem becomes harder. Across seven mathematical reasoning benchmarks, SCRL outperforms strong curriculum-learning baselines, improving average accuracy over GRPO by +4.1 points on Qwen3-4B-Base and +1.9 points on Qwen3-14B-Base. On AIME24, AIME25, and IMO-Bench, SCRL further improves pass@1 by +3.7 points and pass@64 by +4.6 points on Qwen3-4B-Base, indicating better exploration on hard reasoning problems.