Von Argumentationsketten zu überprüfbaren Teilproblemen: Curriculum-basiertes Verstärkungslernen ermöglicht die Kreditzuweisung für das logische Denken von LLMs

Zusammenfassung

Verstärkungslernen aus überprüfbaren Belohnungen (RLVR) hat vielversprechende Ergebnisse für das Reasoning großer Sprachmodelle gezeigt, jedoch ist ergebnisbasiertes RLVR bei schwierigen Problemen ineffizient, da korrekte finale Antwortausführungen selten sind und eine Kreditzuweisung auf Stichprobenebene keine partiellen Fortschritte in fehlgeschlagenen Versuchen nutzen kann. Wir stellen SCRL (Subproblem Curriculum Reinforcement Learning) vor, ein Curriculum-RL-Framework, das aus Referenz-Argumentationsketten überprüfbare Teilprobleme ableitet und das letzte Teilproblem als das ursprüngliche Problem festlegt. Dadurch werden partielle Fortschritte bei schwierigen Problemen in überprüfbare Lernsignale umgewandelt. Algorithmisch verwendet SCRL eine Teilproblem-Normalisierung, die Belohnungen unabhängig an jeder Teilproblemposition normalisiert und die resultierenden Vorteile den entsprechenden Antwortspannen zuweist, was eine feinere Kreditzuweisung ohne externe Bewertungskriterien oder Belohnungsmodelle ermöglicht. Unsere Analyse zeigt, dass Teilproblem-Curricula schwierige Probleme aus Gradienten-Totzonen herausheben, wobei die relativen Gewinne größer sind, je schwieriger das ursprüngliche Problem wird. Über sieben mathematische Reasoning-Benchmarks hinweg übertrifft SCRL starke Curriculum-Learning-Baselines und verbessert die durchschnittliche Genauigkeit im Vergleich zu GRPO um +4,1 Punkte auf Qwen3-4B-Base und um +1,9 Punkte auf Qwen3-14B-Base. Auf AIME24, AIME25 und IMO-Bench verbessert SCRL zudem pass@1 um +3,7 Punkte und pass@64 um +4,6 Punkte auf Qwen3-4B-Base, was auf eine bessere Exploration bei schwierigen Reasoning-Problemen hindeutet.

English

Reinforcement learning from verifiable rewards (RLVR) has shown strong promise for LLM reasoning, but outcome-based RLVR remains inefficient on hard problems because correct final-answer rollouts are rare and sample-level credit assignment cannot use partial progress in failed attempts. We introduce SCRL (Subproblem Curriculum Reinforcement Learning), a curriculum RL framework that derives verifiable subproblems from reference reasoning chains and fixes the final subproblem as the original problem. This turns partial progress on hard problems into verifiable learning signals. Algorithmically, SCRL uses subproblem-level normalization, which normalizes rewards independently at each subproblem position and assigns the resulting advantages to the corresponding answer spans, enabling finer-grained credit assignment without external rubrics or reward models. Our analysis shows that subproblem curricula lift hard problems out of gradient dead zones, with larger relative gains as the original problem becomes harder. Across seven mathematical reasoning benchmarks, SCRL outperforms strong curriculum-learning baselines, improving average accuracy over GRPO by +4.1 points on Qwen3-4B-Base and +1.9 points on Qwen3-14B-Base. On AIME24, AIME25, and IMO-Bench, SCRL further improves pass@1 by +3.7 points and pass@64 by +4.6 points on Qwen3-4B-Base, indicating better exploration on hard reasoning problems.