ChatPaper.aiChatPaper

Насколько эффективны агентные навыки в реальных условиях: оценка использования навыков больших языковых моделей в реалистичных сценариях

How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

April 6, 2026
Авторы: Yujian Liu, Jiabao Ji, Li An, Tommi Jaakkola, Yang Zhang, Shiyu Chang
cs.AI

Аннотация

Навыки агентов, представляющие собой переиспользуемые предметно-ориентированные артефакты знаний, стали популярным механизмом расширения возможностей агентов на основе больших языковых моделей (LLM), однако формальное тестирование производительности их использования остается редким. Существующие подходы к оценке навыков сосредоточены на излишне идеализированных условиях, где LLM напрямую предоставляются тщательно подобранные, узкоспециализированные навыки для каждой конкретной задачи. В то же время во многих реальных сценариях агент LLM может быть вынужден самостоятельно осуществлять поиск и выбор релевантных навыков, причем даже наиболее подходящие навыки могут быть плохо адаптированы к задаче. В данной статье мы проводим первое комплексное исследование полезности навыков в условиях постепенно усложняющихся реалистичных сценариев, где агенты должны извлекать навыки из большой коллекции, содержащей 34 тыс. реальных навыков, и могут не иметь доступа к каким-либо заранее отобранным навыкам. Наши результаты показывают, что преимущества навыков хрупки: прирост производительности последовательно снижается по мере усложнения условий, а в наиболее сложных сценариях процент успешного выполнения приближается к базовым показателям работы без навыков. Для сокращения этого разрыва мы исследуем стратегии улучшения навыков, включая подходы, зависящие от запроса и не зависящие от него, и демонстрируем, что улучшение, специфичное для запроса, существенно восстанавливает потерянную производительность, когда исходные навыки обладают достаточной релевантностью и качеством. Мы также демонстрируем универсальность извлечения и улучшения на Terminal-Bench 2.0, где они повышают процент успешного выполнения Claude Opus 4.6 с 57,7% до 65,5%. Наши результаты, согласованные для нескольких моделей, подчеркивают как перспективность, так и текущие ограничения навыков для агентов на основе LLM. Наш код доступен по адресу https://github.com/UCSB-NLP-Chang/Skill-Usage.
English
Agent skills, which are reusable, domain-specific knowledge artifacts, have become a popular mechanism for extending LLM-based agents, yet formally benchmarking skill usage performance remains scarce. Existing skill benchmarking efforts focus on overly idealized conditions, where LLMs are directly provided with hand-crafted, narrowly-tailored task-specific skills for each task, whereas in many realistic settings, the LLM agent may have to search for and select relevant skills on its own, and even the closest matching skills may not be well-tailored for the task. In this paper, we conduct the first comprehensive study of skill utility under progressively challenging realistic settings, where agents must retrieve skills from a large collection of 34k real-world skills and may not have access to any hand-curated skills. Our findings reveal that the benefits of skills are fragile: performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging scenarios. To narrow this gap, we study skill refinement strategies, including query-specific and query-agnostic approaches, and we show that query-specific refinement substantially recovers lost performance when the initial skills are of reasonable relevance and quality. We further demonstrate the generality of retrieval and refinement on Terminal-Bench 2.0, where they improve the pass rate of Claude Opus 4.6 from 57.7% to 65.5%. Our results, consistent across multiple models, highlight both the promise and the current limitations of skills for LLM-based agents. Our code is available at https://github.com/UCSB-NLP-Chang/Skill-Usage.
PDF241April 9, 2026