SkillsBench: 多様なタスクにおけるエージェントスキルの性能評価ベンチマーク
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
February 13, 2026
著者: Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee
cs.AI
要旨
エージェントスキルは、推論時にLLMエージェントを強化する手続き的知識の構造化されたパッケージです。急速に普及しているにもかかわらず、その実際の有用性を測定する標準的な方法は存在しません。本研究では、11のドメインにわたる86タスクから成るベンチマーク「SkillsBench」を提案します。各タスクは、厳選されたスキルと確定的な検証器と組み合わされています。各タスクは、スキルなし、厳選されたスキル、自己生成されたスキルという3つの条件で評価されました。7つのエージェントモデル構成に対し、7,308の軌跡にわたってテストを実施しました。その結果、厳選されたスキルは平均合格率を16.2パーセントポイント(pp)向上させましたが、効果はドメインによって大きく異なり(ソフトウェアエンジニアリングの+4.5ppから医療の+51.9ppまで)、84タスク中16タスクでは負の効果が見られました。自己生成されたスキルは平均的に利益をもたらさず、モデルが消費することで利益を得る手続き的知識を確実に作成できないことが示されました。2~3のモジュールで構成される焦点を絞ったスキルは、網羅的なドキュメントよりも優れた性能を示し、スキルを備えた小型モデルは、スキルなしの大型モデルと同等の性能を発揮し得ることがわかりました。
English
Agent Skills are structured packages of procedural knowledge that augment LLM agents at inference time. Despite rapid adoption, there is no standard way to measure whether they actually help. We present SkillsBench, a benchmark of 86 tasks across 11 domains paired with curated Skills and deterministic verifiers. Each task is evaluated under three conditions: no Skills, curated Skills, and self-generated Skills. We test 7 agent-model configurations over 7,308 trajectories. Curated Skills raise average pass rate by 16.2 percentage points(pp), but effects vary widely by domain (+4.5pp for Software Engineering to +51.9pp for Healthcare) and 16 of 84 tasks show negative deltas. Self-generated Skills provide no benefit on average, showing that models cannot reliably author the procedural knowledge they benefit from consuming. Focused Skills with 2--3 modules outperform comprehensive documentation, and smaller models with Skills can match larger models without them.