ARISE: Agentenbasiertes Schließen mit intrinsischer Fähigkeitsentwicklung im hierarchischen Reinforcement Learning

Zusammenfassung

Das vorherrschende Paradigma zur Verbesserung mathematischen Denkvermögens in Sprachmodellen stützt sich auf Bestärkendes Lernen mit überprüfbaren Belohnungen. Bisherige Methoden behandeln jedoch jede Problemstellung isoliert, ohne die wiederverwendbaren Strategien zu nutzen, die während des Trainings entstehen und sich ansammeln. Daher führen wir ARISE (Agent Reasoning via Intrinsic Skill Evolution) ein, einen hierarchischen Reinforcement-Learning-Rahmen, in dem eine gemeinsame Policy sowohl zur Verwaltung von Fähigkeiten auf hoher Ebene als auch zur Generierung von Antworten auf niedriger Ebene agiert (bezeichnet als Skills Manager bzw. Worker). Der Manager verwaltet eine abgestufte Fähigkeitsbibliothek durch einen dedizierten Skill-Generierungs-Rollout, der strukturierte Zusammenfassungen erfolgreicher Lösungswege (nach der Ausführung) erstellt, während er einen policy-gesteuerten Auswahlmechanismus einsetzt, um relevante Fähigkeiten für zukünftige Rollouts abzurufen (vor der Ausführung). Ein hierarchisches Belohnungsdesign leitet die Ko-Evolution von Denkfähigkeit und Bibliotheksqualität. Experimente mit zwei Basismodellen und sieben Benchmarks aus dem Bereich der Wettbewerbsmathematik und Omni-MATH zeigen, dass ARISE durchgängig Algorithmen der GRPO-Familie und speichererweiterte Baseline-Methoden übertrifft, mit besonders bemerkenswerten Gewinnen bei Out-of-Distribution-Aufgaben. Ablationsstudien bestätigen, dass jede Komponente zu den beobachteten Verbesserungen beiträgt und dass sich Bibliotheksqualität und Reasoning-Leistung während des Trainings parallel verbessern. Der Code ist verfügbar unter https://github.com/Skylanding/ARISE.

English

The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at https://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}.

ARISE: Agentenbasiertes Schließen mit intrinsischer Fähigkeitsentwicklung im hierarchischen Reinforcement Learning

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Zusammenfassung

Support