SWE-Skills-Bench: Помогают ли навыки агентов в реальной разработке программного обеспечения?

Аннотация

Навыки агентов — структурированные пакеты процедурных знаний, внедряемые во время вывода, — всё чаще используются для расширения возможностей LLM-агентов при решении задач программной инженерии. Однако их реальная полезность в сквозных сценариях разработки остаётся неясной. Мы представляем SWE-Skills-Bench — первый ориентированный на требования бенчмарк, который изолирует предельную полезность навыков агентов в реальной программной инженерии (SWE). Он объединяет 49 публичных SWE-навыков с аутентичными репозиториями GitHub, зафиксированными на определённых коммитах, и документами требований с явными критериями приемки, формируя около 565 экземпляров задач в шести поддоменах SWE. Мы вводим детерминированную схему верификации, которая сопоставляет критерии приемки каждой задачи с исполняемыми тестами, позволяя проводить контролируемое парное оценивание с навыком и без него. Наши результаты показывают, что преимущества внедрения навыков гораздо более ограничены, чем предполагает их быстрое распространение: 39 из 49 навыков не дают никакого улучшения процента успешных решений, а средний прирост составляет всего +1,2%. Токенные затраты варьируются от умеренной экономии до увеличения на 451%, при этом процент успешных решений остаётся неизменным. Лишь семь специализированных навыков обеспечивают значительный прирост (до +30%), тогда как три ухудшают производительность (до –10%) из-за несовместимости устаревших рекомендаций с контекстом проекта. Эти данные свидетельствуют, что навыки агентов являются узким вмешательством, чья полезность сильно зависит от соответствия домену, уровня абстракции и контекстуальной совместимости. SWE-Skills-Bench предоставляет среду для оценки проектирования, выбора и развёртывания навыков в агентах программной инженерии. SWE-Skills-Bench доступен по адресу https://github.com/GeniusHTX/SWE-Skills-Bench.

English

Agent skills, structured procedural knowledge packages injected at inference time, are increasingly used to augment LLM agents on software engineering tasks. However, their real utility in end-to-end development settings remains unclear. We present SWE-Skills-Bench, the first requirement-driven benchmark that isolates the marginal utility of agent skills in real-world software engineering (SWE). It pairs 49 public SWE skills with authentic GitHub repositories pinned at fixed commits and requirement documents with explicit acceptance criteria, yielding approximately 565 task instances across six SWE subdomains. We introduce a deterministic verification framework that maps each task's acceptance criteria to execution-based tests, enabling controlled paired evaluation with and without the skill. Our results show that skill injection benefits are far more limited than rapid adoption suggests: 39 of 49 skills yield zero pass-rate improvement, and the average gain is only +1.2%. Token overhead varies from modest savings to a 451% increase while pass rates remain unchanged. Only seven specialized skills produce meaningful gains (up to +30%), while three degrade performance (up to -10%) due to version-mismatched guidance conflicting with project context. These findings suggest that agent skills are a narrow intervention whose utility depends strongly on domain fit, abstraction level, and contextual compatibility. SWE-Skills-Bench provides a testbed for evaluating the design, selection, and deployment of skills in software engineering agents. SWE-Skills-Bench is available at https://github.com/GeniusHTX/SWE-Skills-Bench.

SWE-Skills-Bench: Помогают ли навыки агентов в реальной разработке программного обеспечения?

SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

Аннотация

Support