기술 라이브러리를 활용한 자기 개선 에이전트를 위한 강화 학습
Reinforcement Learning for Self-Improving Agent with Skill Library
December 18, 2025
저자: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong
cs.AI
초록
대규모 언어 모델(LLM) 기반 에이전트는 복잡한 추론 및 다중 턴 상호작용에서 뛰어난 능력을 보여주지만, 새로운 환경에 배포될 때 지속적인 개선과 적응에는 어려움을 겪습니다. 이러한 문제를 해결하기 위한 유망한 접근법 중 하나는 에이전트가 새로운 스킬을 학습, 검증 및 적용할 수 있도록 하는 스킬 라이브러리를 구현하는 것입니다. 그러나 현재의 스킬 라이브러리 접근법은 주로 LLM 프롬프팅에 의존하여 일관된 스킬 라이브러리 구현이 어려운 실정입니다. 이러한 한계를 극복하기 위해 본 연구에서는 스킬 라이브러리를 통한 에이전트의 자기 개선 능력을 강화하기 위한 강화 학습(RL) 기반 접근법을 제안합니다. 구체적으로, 우리는 스킬을 체계적으로 학습에 통합하는 새로운 RL 프레임워크인 자기 진화를 위한 스킬 증강 GRPO(SAGE)를 소개합니다. 이 프레임워크의 핵심 구성 요소인 순차적 롤아웃은 각 롤아웃마다 유사한 작업들로 구성된 체인에 에이전트를 반복적으로 배포합니다. 에이전트가 작업 체인을 진행함에 따라, 이전 작업에서 생성된 스킬들이 라이브러리에 누적되어 후속 작업에서 활용 가능해집니다. 또한, 본 프레임워크는 기존 결과 기반 보상을 보완하는 스킬 통합 보상을 통해 스킬 생성 및 활용을 향상시킵니다. AppWorld에서의 실험 결과, 전문가 경험이 반영된 지도 미세조정 모델에 SAGE를 적용했을 시나리오 목표 완수율이 8.9% 향상되었으며, 상호작용 단계는 26%, 생성된 토큰 수는 59% 각각 감소하여 정확도와 효율성 모두에서 기존 접근법을 크게 능가하는 것으로 나타났습니다.
English
Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.