SkillsBench: 다양한 작업에서 에이전트 스킬의 성능을 평가하는 벤치마크
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
February 13, 2026
저자: Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee
cs.AI
초록
에이전트 스킬은 추론 시점에 LLM 에이전트의 능력을 향상시키는 절차적 지식의 구조화된 패키지입니다. 급속한 도입에도 불구하고, 이러한 스킬이 실제로 도움이 되는지 측정하는 표준화된 방법은 부재했습니다. 본 연구는 11개 도메인에 걸친 86개 과제로 구성된 벤치마크인 SkillsBench를 제시하며, 각 과제는 선별된 스킬과 결정론적 검증 도구와 함께 제공됩니다. 각 과제는 스킬 미사용, 선별된 스킬 사용, 자체 생성 스킬 사용이라는 세 가지 조건 하에서 평가됩니다. 우리는 7가지 에이전트-모델 구성을 대상으로 총 7,308회의 트랙젝토리를 실험했습니다. 선별된 스킬은 평균 통과율을 16.2%p(p) 향상시켰으나, 효과는 도메인별로 크게 차이났으며(소프트웨어 공학 +4.5%p에서 헬스케어 +51.9%p), 84개 과제 중 16개에서는 오히려 부정적인 효과를 보였습니다. 자체 생성 스킬은 평균적으로 이점을 제공하지 않아, 모델이 소비 시에는 이점을 얻는 절차적 지식을 안정적으로 작성하지 못함을 보여줍니다. 2-3개의 모듈로 구성된 집중형 스킬이 포괄적인 문서화보다 우수한 성능을 보였으며, 스킬을 보유한 소규모 모델이 스킬 없이 동작하는 대규모 모델의 성능에 필적할 수 있었습니다.
English
Agent Skills are structured packages of procedural knowledge that augment LLM agents at inference time. Despite rapid adoption, there is no standard way to measure whether they actually help. We present SkillsBench, a benchmark of 86 tasks across 11 domains paired with curated Skills and deterministic verifiers. Each task is evaluated under three conditions: no Skills, curated Skills, and self-generated Skills. We test 7 agent-model configurations over 7,308 trajectories. Curated Skills raise average pass rate by 16.2 percentage points(pp), but effects vary widely by domain (+4.5pp for Software Engineering to +51.9pp for Healthcare) and 16 of 84 tasks show negative deltas. Self-generated Skills provide no benefit on average, showing that models cannot reliably author the procedural knowledge they benefit from consuming. Focused Skills with 2--3 modules outperform comprehensive documentation, and smaller models with Skills can match larger models without them.