ARISE: Agent Redeneren met Intrinsieke Vaardigheidsevolutie in Hiërarchisch Reinforcement Leren

Samenvatting

Het dominante paradigma voor het verbeteren van wiskundig redeneren in taalmodellen steunt op Reinforcement Learning met verifieerbare beloningen. Toch behandelen bestaande methodes elk probleem geïsoleerd, zonder gebruik te maken van de herbruikbare strategieën die tijdens training ontstaan en accumuleren. Daarom introduceren wij ARISE (Agent Reasoning via Intrinsic Skill Evolution), een hiërarchisch reinforcement learning-raamwerk waarin een gedeeld beleid functioneert om zowel vaardigheden op hoog niveau te beheren als antwoorden op laag niveau te genereren (respectievelijk aangeduid als een Vaardighedenbeheerder en een Werker). De Beheerder onderhoudt een gelaagde vaardighedenbibliotheek via een toegewijde vaardigheidsgeneratie-rollout die gestructureerde samenvatting maakt van succesvolle oplossingstrajecten (na uitvoering), terwijl een beleidsgestuurd selectiemechanisme wordt ingezet om relevante vaardigheden op te halen om toekomstige rollouts te conditioneren (voor uitvoering). Een hiërarchisch beloningsontwerp stuurt de co-evolutie van redeneervermogen en bibliotheekkwaliteit. Experimenten met twee basismodellen en zeven benchmarks in zowel wedstrijdwiskunde als Omni-MATH tonen aan dat ARISE consistent beter presteert dan GRPO-familie-algoritmen en geheugenversterkte baseline-methoden, met bijzonder opmerkelijke winsten op out-of-distribution-taken. Ablatiestudies bevestigen dat elke component bijdraagt aan de waargenomen verbeteringen en dat bibliotheekkwaliteit en redeneerprestaties tijdens de training gelijk opgaan. Code is beschikbaar op https://github.com/Skylanding/ARISE.

English

The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at https://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}.

ARISE: Agent Redeneren met Intrinsieke Vaardigheidsevolutie in Hiërarchisch Reinforcement Leren

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Samenvatting

Support