기술1: 강화 학습을 통한 기술 강화 에이전트의 통합 진화
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
May 7, 2026
저자: Yaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang
cs.AI
초록
지속적 스킬 라이브러리를 통해 언어 모델 에이전트는 다양한 작업에 걸쳐 성공적인 전략을 재사용할 수 있습니다. 이러한 라이브러리를 유지하려면 세 가지 상호 연계된 역량이 필요합니다. 에이전트는 관련 스킬을 선택하고, 실행 과정에서 이를 활용하며, 경험으로부터 새로운 스킬을 정제합니다. 기존 방법론은 이러한 역량을 개별적으로 또는 별도의 보상 원천을 통해 최적화하여 부분적이고 상충되는 진화를 초래했습니다. 본 연구에서는 단일 정책을 훈련시켜 스킬 선택, 활용, 정제를 공유 작업 결과 목표를 향해 공동 진화시키는 Skill1 프레임워크를 제안합니다. 이 정책은 스킬 라이브러리 검색을 위한 질의를 생성하고, 후보를 재순위화하여 선택하며, 선택된 스킬을 조건으로 작업을 해결한 후, 해당 경로에서 새로운 스킬을 정제합니다. 모든 학습은 단일 작업 결과 신호에서 비롯됩니다. 그 저주파수 추세는 선택을, 고주파수 변동은 정제를 각각 신용 배분합니다. ALFWorld와 WebShop에서의 실험 결과, Skill1이 기존 스킬 기반 및 강화 학습 기준선을 능가함을 보여줍니다. 훈련 역학은 세 가지 역량의 공동 진화를 확인하며, ablation 실험은 어느 신용 신호를 제거하더라도 진화가 저하됨을 보여줍니다.
English
A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.