SkillsVote:エージェントスキルのライフサイクルガバナンス - 収集、推薦から進化まで
SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution
May 18, 2026
著者: Hongyi Liu, Haoyan Yang, Tao Jiang, Bo Tang, Feiyu Xiong, Zhiyu Li
cs.AI
要旨
長期間稼働するLLMエージェントは、再利用可能な経験となる可能性のある痕跡を残すが、生の軌跡はノイズが多く管理が難しい。我々はAgent Skillsを、実行可能なスクリプトと非実行可能な手順ガイダンスを結合する経験スキーマとして捉える。しかし、オープンなスキルエコシステムには冗長で不均一、環境に敏感なアーティファクトが含まれており、無差別な更新は将来のコンテキストを汚染する可能性がある。本稿では、Agent Skillsの収集、推奨から進化に至るライフサイクルガバナンスフレームワークであるSkillsVoteを提案する。SkillsVoteは百万規模のオープンソースコーパスをプロファイリングし、環境要件、品質、検証可能性を評価した上で、検証可能なスキルのためのタスクを合成する。実行前には、構造化スキルライブラリ上でエージェント的ライブラリ検索を行い、指示的なスキルコンテキストを公開する。実行後には、軌跡をスキルにリンクしたサブタスクに分解し、結果をスキル使用、エージェント探索、環境、結果信号に帰属させ、成功した再利用可能な発見のみを証拠ゲート付き更新に受け入れる。評価では、オフライン進化によりTerminal-Bench 2.0におけるGPT-5.2の性能が最大7.9ポイント向上し、オンライン進化によりSWE-Bench Proの性能が最大2.6ポイント向上した。全体として、システムが露出、クレジット、保存を制御する場合、管理された外部スキルライブラリは、モデル更新なしでフリーズされたエージェントを改善できる。
English
Long-horizon LLM agents leave traces that could become reusable experience, but raw trajectories are noisy and hard to govern. We treat Agent Skills as an experience schema that couples executable scripts, with non-executable guidance on procedures. Yet open skill ecosystems contain redundant, uneven, environment-sensitive artifacts, and indiscriminate updates can pollute future context. We present SkillsVote, a lifecycle-governance framework for Agent Skills from collection and recommendation to evolution. SkillsVote profiles a million-scale open-source corpus for environment requirements, quality, and verifiability, then synthesizes tasks for verifiable skills. Before execution, SkillsVote performs agentic library search over structured skill library to expose instructional skill context. After execution, it decomposes trajectories into skill-linked subtasks, attributes outcomes to skill use, agent exploration, environment, and result signals, and admits only successful reusable discoveries to evidence-gated updates. In our evaluation, offline evolution improves GPT-5.2 on Terminal-Bench 2.0 by up to 7.9 pp, while online evolution improves SWE-Bench Pro by up to 2.6 pp. Overall, governed external skill libraries can improve frozen agents without model updates when systems control exposure, credit, and preservation.