SKILL0: スキル内省のための文脈内エージェント強化学習
SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
April 2, 2026
著者: Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, Chengcheng Han, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
要旨
エージェントスキルは、推論時にエージェントが動的に読み込む手続き的知識と実行可能リソースを構造化したパッケージであり、LLMエージェントを拡張する信頼性の高いメカニズムとなっている。しかし、推論時におけるスキル拡張には根本的な限界がある:検索ノイズが無関係なガイダンスをもたらし、注入されるスキル内容が大幅なトークンオーバーヘッドを課し、モデルは単に従っているだけで知識を真に獲得することはない。我々は、スキルをモデルパラメータに内在化させ、ランタイムのスキル検索を一切必要としないゼロショット自律動作を可能にできるかどうかを問う。本論文では、スキル内在化のために設計されたインコンテキスト強化学習フレームワークSKILL0を提案する。SKILL0は、完全なスキルコンテキストから開始し、それを段階的に削減する学習時カリキュラムを導入する。スキルはカテゴリごとにオフラインでグループ化され、インタラクション履歴とともにコンパクトな視覚的コンテキストとして表現されることで、モデルにツール呼び出しとマルチターンタスク完了を教示する。ダイナミックカリキュラムは、各スキルファイルのオンポリシー有益性を評価し、線形減衰する予算内で現在のポリシーが依然として恩恵を受けるもののみを保持し、最終的にエージェントが完全なゼロショット環境で動作するようにする。大規模なエージェント実験により、SKILL0が標準RLベースラインと比較して大幅な改善(ALFWorldで+9.7%、Search-QAで+6.6%)を達成しつつ、ステップあたり0.5kトークン未満という極めて効率的なコンテキストを維持することを実証した。コードはhttps://github.com/ZJU-REAL/SkillZeroで公開されている。
English
Agent skills, structured packages of procedural knowledge and executable resources that agents dynamically load at inference time, have become a reliable mechanism for augmenting LLM agents. Yet inference-time skill augmentation is fundamentally limited: retrieval noise introduces irrelevant guidance, injected skill content imposes substantial token overhead, and the model never truly acquires the knowledge it merely follows. We ask whether skills can instead be internalized into model parameters, enabling zero-shot autonomous behavior without any runtime skill retrieval. We introduce SKILL0, an in-context reinforcement learning framework designed for skill internalization. SKILL0 introduces a training-time curriculum that begins with full skill context and progressively withdraws it. Skills are grouped offline by category and rendered with interaction history into a compact visual context, teaching he model tool invocation and multi-turn task completion. A Dynamic Curriculum then evaluates each skill file's on-policy helpfulness, retaining only those from which the current policy still benefits within a linearly decaying budget, until the agent operates in a fully zero-shot setting. Extensive agentic experiments demonstrate that SKILL0 achieves substantial improvements over the standard RL baseline (+9.7\% for ALFWorld and +6.6\% for Search-QA), while maintaining a highly efficient context of fewer than 0.5k tokens per step. Our code is available at https://github.com/ZJU-REAL/SkillZero.