ChatPaper.aiChatPaper

SkillOS:自己進化エージェントのためのスキルキュレーション学習

SkillOS: Learning Skill Curation for Self-Evolving Agents

May 7, 2026
著者: Siru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
cs.AI

要旨

LLMベースのエージェントはストリーミングタスクの処理にますます導入されているが、過去のインタラクションから学習しない単発の問題解決者にとどまることが多い。経験から抽出された再利用可能なスキルは自己進化の自然な基盤を提供するが、高品質なスキルキュレーションが主要なボトルネックとなる。既存のアプローチは、手動によるスキルキュレーションに依存するか、ヒューリスティックなスキル操作を規定するか、短期的なスキル操作の訓練に留まっている。しかし、間接的で遅延したフィードバックから複雑な長期的なキュレーションポリシーを学習するには依然として課題がある。この課題に取り組むため、我々は自己進化エージェントにおけるスキルキュレーション学習のための経験駆動型RLトレーニング手法であるSkillOSを提案する。SkillOSは、スキルを検索して適用する凍結されたエージェントエクゼキュータと、蓄積された経験から外部のSkillRepoを更新する訓練可能なスキルキュレータを組み合わせる。キュレーションへの学習信号を提供するため、複合報酬を設計し、スキル関連のタスク依存関係に基づいてグループ化されたタスクストリームで訓練を行う。これにより、初期の軌跡がSkillRepoを更新し、後続の関連タスクがこれらの更新を評価する。マルチターンのエージェントタスクとシングルターンの推論タスクの両方において、SkillOSは効果性と効率性の両面でメモリ不使用のベースラインおよび強力なメモリベースのベースラインを一貫して上回り、学習されたスキルキュレータは異なるエクゼキュータ基盤やタスク領域にわたって一般化する。さらなる分析により、学習されたキュレータはより標的化されたスキル使用を生み出し、SkillRepo内のスキルは時間の経過とともに高次メタスキルをエンコードするより豊かに構造化されたMarkdownファイルへと進化することが示された。
English
LLM-based agents are increasingly deployed to handle streaming tasks, yet they often remain one-off problem solvers that fail to learn from past interactions. Reusable skills distilled from experience provide a natural substrate for self-evolution, where high-quality skill curation serves as the key bottleneck. Existing approaches either rely on manual skill curation, prescribe heuristic skill operations, or train for short-horizon skill operations. However, they still struggle to learn complex long-term curation policies from indirect and delayed feedback. To tackle this challenge, we propose SkillOS, an experience-driven RL training recipe for learning skill curation in self-evolving agents. SkillOS pairs a frozen agent executor that retrieves and applies skills with a trainable skill curator that updates an external SkillRepo from accumulated experience. To provide learning signals for curation, we design composite rewards and train on grouped task streams based on skill-relevant task dependencies, where earlier trajectories update the SkillRepo, and later related tasks evaluate these updates. Across multi-turn agentic tasks and single-turn reasoning tasks, SkillOS consistently outperforms memory-free and strong memory-based baselines in both effectiveness and efficiency, with the learned skill curator generalizing across different executor backbones and task domains. Further analyses show that the learned curator produces more targeted skill use, while the skills in SkillRepo evolve into more richly structured Markdown files that encode higher-level meta-skills over time.
PDF211May 9, 2026