ChatPaper.aiChatPaper

SKILL0: 기술 내재화를 위한 맥락 내 행동주의 강화 학습

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

April 2, 2026
저자: Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, Chengcheng Han, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI

초록

에이전트 스킬은 추론 시점에 에이전트가 동적으로 로드하는 절차적 지식과 실행 가능한 자원의 구조화된 패키지로, LLM 에이전트 성능 향상을 위한 신뢰할 수 있는 메커니즘으로 자리 잡았습니다. 그러나 추론 시점 스킬 증강은 근본적인 한계를 지닙니다: 검색 노이즈로 인해 관련 없는 지침이 도입되고, 주입된 스킬 콘텐츠는 상당한 토큰 오버헤드를 발생시키며, 모델은 단순히 따르는 지식을 진정으로 습득하지 못합니다. 우리는 런타임 스킬 검색 없이 제로샷 자율 행동을 가능하게 하도록 스킬을 모델 파라미터에 내재화할 수 있는지 질문합니다. 이를 위해 스킬 내재화를 위해 설계된 인컨텍스트 강화 학습 프레임워크인 SKILL0를 소개합니다. SKILL0는 완전한 스킬 컨텍스트로 시작하여 점진적으로 이를 축소하는 학습 시점 커리큘럼을 도입합니다. 스킬은 오프라인에서 범주별로 그룹화되고 상호작용 기록과 함께 간결한 시각적 컨텍스트로 렌더링되어 모델이 도구 호출 및 다중 턴 작업 완료를 학습하도록 합니다. 동적 커리큘럼은 각 스킬 파일의 온-정책 유용성을 평가하여, 선형적으로 감소하는 예산 내에서 현재 정책이 여전히 혜택을 보는 스킬만 유지하며, 결국 에이전트가 완전한 제로샷 환경에서 운영되도록 합니다. 광범위한 에이전트 실험을 통해 SKILL0가 표준 RL 베이스라인 대비 상당한 성능 향상(ALFWorld +9.7%, Search-QA +6.6%)을 달성하면서도 단계당 0.5k 토큰 미만의 매우 효율적인 컨텍스트를 유지함을 입증했습니다. 우리의 코드는 https://github.com/ZJU-REAL/SkillZero에서 확인할 수 있습니다.
English
Agent skills, structured packages of procedural knowledge and executable resources that agents dynamically load at inference time, have become a reliable mechanism for augmenting LLM agents. Yet inference-time skill augmentation is fundamentally limited: retrieval noise introduces irrelevant guidance, injected skill content imposes substantial token overhead, and the model never truly acquires the knowledge it merely follows. We ask whether skills can instead be internalized into model parameters, enabling zero-shot autonomous behavior without any runtime skill retrieval. We introduce SKILL0, an in-context reinforcement learning framework designed for skill internalization. SKILL0 introduces a training-time curriculum that begins with full skill context and progressively withdraws it. Skills are grouped offline by category and rendered with interaction history into a compact visual context, teaching he model tool invocation and multi-turn task completion. A Dynamic Curriculum then evaluates each skill file's on-policy helpfulness, retaining only those from which the current policy still benefits within a linearly decaying budget, until the agent operates in a fully zero-shot setting. Extensive agentic experiments demonstrate that SKILL0 achieves substantial improvements over the standard RL baseline (+9.7\% for ALFWorld and +6.6\% for Search-QA), while maintaining a highly efficient context of fewer than 0.5k tokens per step. Our code is available at https://github.com/ZJU-REAL/SkillZero.
PDF723April 4, 2026