ARISE: 계층적 강화 학습에서 내재적 기술 진화를 통한 에이전트 추론
ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning
March 17, 2026
저자: Yu Li, Rui Miao, Zhengling Qi, Tian Lan
cs.AI
초록
언어 모델의 수학적 추론 능력 향상을 위한 주류 패러다임은 검증 가능한 보상을 활용한 강화 학습에 의존해왔습니다. 그러나 기존 방법들은 훈련 과정에서 나타나고 축적되는 재사용 가능한 전략을 활용하지 않은 채 각 문제 인스턴스를 독립적으로 다룹니다. 이를 위해 본 연구에서는 계층적 강화 학습 프레임워크인 ARISE(Agent Reasoning via Intrinsic Skill Evolution)를 제안합니다. ARISE는 공유 정책이 상위 수준에서 스킬을 관리하고 하위 수준에서 응답을 생성하는 방식으로 작동합니다(각각 스킬 관리자와 작업자로 명명). 관리자는 성공적인 해결 과정을 구조화된 방식으로 요약하는 전용 스킬 생성 롤아웃을 통해 계층적 스킬 라이브러리를 유지하며, 정책 기반 선택 메커니즘을 활용하여 향후 롤아웃에 조건을 부여할 관련 스킬을 검색합니다(실행 전). 계층적 보상 설계는 추론 능력과 라이브러리 품질의 공동 진화를 유도합니다. 두 가지 기본 모델과 경쟁 수학 및 Omni-MATH를 아우르는 7개 벤치마크에서의 실험 결과, ARISE는 GRTO 계열 알고리즘 및 메모리 강화 베이스라인을 꾸준히 능가하며, 특히 분포 외 작업에서 두드러진 성능 향상을 보였습니다. ablation 연구를 통해 각 구성 요소가 관찰된 개선에 기여하며, 라이브러리 품질과 추론 성능이 훈련 전반에 걸쳐 동반 상승함을 확인했습니다. 코드는 https://github.com/Skylanding/ARISE에서 확인할 수 있습니다.
English
The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at https://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}.