ChatPaper.aiChatPaper

スキルグラフ:大規模エージェントスキルの依存関係を考慮した構造的検索

Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

April 7, 2026
著者: Dawei Li, Zongxia Li, Hongyang Du, Xiyang Wu, Shihang Gui, Yongbei Kuang, Lichao Sun
cs.AI

要旨

スキル利用は現代のエージェントシステムの中核的要素となり、エージェントの複雑なタスク遂行能力を大幅に向上させることができる。現実世界の環境では、エージェントが多数の個人用アプリケーション、ウェブブラウザ、その他の環境インターフェースを監視・操作する必要があるため、スキルライブラリは数千もの再利用可能なスキルにスケールしうる。しかし、大規模なスキルセットへのスケーリングには二つの主要な課題が生じる。第一に、スキルセット全体を読み込むとコンテキストウィンドウが飽和し、トークンコストの増大、幻覚生成、遅延の原因となる。 本論文では、大規模スキルライブラリ向けの推論時構造的検索層であるGraph of Skills(GoS)を提案する。GoSは、オフラインでスキルパッケージから実行可能なスキルグラフを構築し、推論時には、ハイブリッド意味・字句シーディング、逆重み付きパーソナライズドPageRank、コンテキスト予算考慮型ハイドレーションを通じて、境界付けられ依存関係を考慮したスキルバンドルを検索する。SkillsBenchおよびALFWorldにおける評価では、GoSはベースラインとなる通常の全スキル読み込み方式と比較して平均報酬を43.6%向上させ、入力トークンを37.8%削減し、Claude Sonnet、GPT-5.2 Codex、MiniMaxの3つのモデルファミリーにわたって一般性を示した。200から2,000スキルにわたるスキルライブラリでの追加的な ablation study により、GoSが報酬、トークン効率、実行時間のバランスにおいて、通常のスキル読み込みおよび単純なベクトル検索を一貫して上回ることをさらに実証した。
English
Skill usage has become a core component of modern agent systems and can substantially improve agents' ability to complete complex tasks. In real-world settings, where agents must monitor and interact with numerous personal applications, web browsers, and other environment interfaces, skill libraries can scale to thousands of reusable skills. Scaling to larger skill sets introduces two key challenges. First, loading the full skill set saturates the context window, driving up token costs, hallucination, and latency. In this paper, we present Graph of Skills (GoS), an inference-time structural retrieval layer for large skill libraries. GoS constructs an executable skill graph offline from skill packages, then at inference time retrieves a bounded, dependency-aware skill bundle through hybrid semantic-lexical seeding, reverse-weighted Personalized PageRank, and context-budgeted hydration. On SkillsBench and ALFWorld, GoS improves average reward by 43.6% over the vanilla full skill-loading baseline while reducing input tokens by 37.8%, and generalizes across three model families: Claude Sonnet, GPT-5.2 Codex, and MiniMax. Additional ablation studies across skill libraries ranging from 200 to 2,000 skills further demonstrate that GoS consistently outperforms both vanilla skills loading and simple vector retrieval in balancing reward, token efficiency, and runtime.
PDF171April 11, 2026