ChatPaper.aiChatPaper

SkillRL: 재귀적 기술 강화 강화학습을 통한 에이전트 진화

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

February 9, 2026
저자: Peng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI

초록

대규모 언어 모델(LLM) 에이전트는 복잡한 작업에서 놀라운 성과를 보여주지만, 종종 고립되어 작동하여 과거 경험으로부터 학습하지 못하는 경우가 많습니다. 기존의 메모리 기반 방법은 주로 원시 궤적을 저장하는데, 이는 종종 중복되고 노이즈가 많습니다. 이로 인해 에이전트가 일반화에 필수적인 높은 수준의 재사용 가능한 행동 패턴을 추출하는 것이 어렵습니다. 본 논문에서는 자동 스킬 발견과 재귀적 진화를 통해 원시 경험과 정책 개선 사이의 간극을 메우는 SkillRL 프레임워크를 제안합니다. 우리의 접근법은 계층적 스킬 라이브러리 SkillBank를 구축하기 위한 경험 기반 정제 메커니즘, 일반적 및 작업 특화적 휴리스틱을 위한 적응형 검색 전략, 그리고 강화 학습 과정에서 스킬 라이브러리가 에이전트 정책과 공동으로 진화하도록 하는 재귀적 진화 메커니즘을 도입합니다. 이러한 혁신은 토큰 사용량을 크게 줄이면서 추론 효용을 향상시킵니다. ALFWorld, WebShop 및 7개의 검색 보강 작업에 대한 실험 결과는 SkillRL이 최첨단 성능을 달성하여 강력한 베이스라인 대비 15.3% 이상 우수한 성능을 보이며 작업 복잡성이 증가함에 따라 견고성을 유지함을 입증합니다. 코드는 https://github.com/aiming-lab/SkillRL에서 확인할 수 있습니다.
English
Large Language Model (LLM) agents have shown stunning results in complex tasks, yet they often operate in isolation, failing to learn from past experiences. Existing memory-based methods primarily store raw trajectories, which are often redundant and noise-heavy. This prevents agents from extracting high-level, reusable behavioral patterns that are essential for generalization. In this paper, we propose SkillRL, a framework that bridges the gap between raw experience and policy improvement through automatic skill discovery and recursive evolution. Our approach introduces an experience-based distillation mechanism to build a hierarchical skill library SkillBank, an adaptive retrieval strategy for general and task-specific heuristics, and a recursive evolution mechanism that allows the skill library to co-evolve with the agent's policy during reinforcement learning. These innovations significantly reduce the token footprint while enhancing reasoning utility. Experimental results on ALFWorld, WebShop and seven search-augmented tasks demonstrate that SkillRL achieves state-of-the-art performance, outperforming strong baselines over 15.3% and maintaining robustness as task complexity increases. Code is available at this https://github.com/aiming-lab/SkillRL.
PDF561February 12, 2026