ARISE: 階層的強化学習における内生的スキル進化を伴うエージェント推論
ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning
March 17, 2026
著者: Yu Li, Rui Miao, Zhengling Qi, Tian Lan
cs.AI
要旨
言語モデルの数学的推論能力を向上させる主要なパラダイムは、検証可能な報酬を用いた強化学習に依存している。しかし、既存の手法は各問題インスタンスを孤立して扱い、訓練中に出現し蓄積される再利用可能な戦略を活用していない。この課題に対処するため、我々はARISE(Agent Reasoning via Intrinsic Skill Evolution)を提案する。これは階層型強化学習フレームワークであり、共有された方策が高レベルではスキル管理(スキルマネージャー)、低レベルでは応答生成(ワーカー)として機能する。マネージャーは、成功した解法トレースの構造化された要約を実行する専用のスキル生成ロールアウトを通じて階層化されたスキルライブラリを維持しつつ、将来のロールアウト(実行前)を条件付けるための関連スキルを取得する方策駆動の選択メカニズムを採用する。階層的な報酬設計により、推論能力とライブラリ品質の共進化が導かれる。競技数学とOmni-MATHに跨る2つのベースモデルと7つのベンチマークによる実験では、ARISEがGRPOファミリーのアルゴリズムやメモリ拡張ベースラインを一貫して上回り、特に分布外タスクにおいて顕著な性能向上を示した。 ablation studyにより、各構成要素が観測された改善に寄与していること、および訓練を通じてライブラリ品質と推論性能が並行して向上することを確認した。コードはhttps://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}で公開されている。
English
The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at https://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}.