SWE-Skills-Bench: As Habilidades dos Agentes Realmente Ajudam na Engenharia de Software do Mundo Real?

Resumo

As habilidades de agentes, pacotes estruturados de conhecimento procedural injetados durante a inferência, são cada vez mais utilizados para aumentar as capacidades de agentes de LLM em tarefas de engenharia de software. No entanto, sua utilidade real em cenários de desenvolvimento de ponta a ponta permanece pouco clara. Apresentamos o SWE-Skills-Bench, o primeiro benchmark orientado a requisitos que isola a utilidade marginal das habilidades de agentes na engenharia de software (SWE) do mundo real. Ele emparelha 49 habilidades públicas de SWE com repositórios autênticos do GitHub fixados em *commits* específicos e documentos de requisitos com critérios de aceitação explícitos, resultando em aproximadamente 565 instâncias de tarefas em seis subdomínios de SWE. Introduzimos uma estrutura de verificação determinística que mapeia os critérios de aceitação de cada tarefa para testes baseados em execução, permitindo uma avaliação pareada controlada com e sem a habilidade. Nossos resultados mostram que os benefícios da injeção de habilidades são muito mais limitados do que a rápida adoção sugere: 39 das 49 habilidades não produziram nenhuma melhoria na taxa de sucesso, e o ganho médio é de apenas +1,2%. A sobrecarga de *tokens* varia de economias modestas a um aumento de 451%, enquanto as taxas de sucesso permanecem inalteradas. Apenas sete habilidades especializadas produzem ganhos significativos (até +30%), enquanto três degradam o desempenho (até -10%) devido a orientações com incompatibilidade de versão que conflitam com o contexto do projeto. Essas descobertas sugerem que as habilidades de agentes são uma intervenção restrita, cuja utilidade depende fortemente do ajuste ao domínio, do nível de abstração e da compatibilidade contextual. O SWE-Skills-Bench fornece um banco de testes para avaliar o projeto, a seleção e a implantação de habilidades em agentes de engenharia de software. O SWE-Skills-Bench está disponível em https://github.com/GeniusHTX/SWE-Skills-Bench.

English

Agent skills, structured procedural knowledge packages injected at inference time, are increasingly used to augment LLM agents on software engineering tasks. However, their real utility in end-to-end development settings remains unclear. We present SWE-Skills-Bench, the first requirement-driven benchmark that isolates the marginal utility of agent skills in real-world software engineering (SWE). It pairs 49 public SWE skills with authentic GitHub repositories pinned at fixed commits and requirement documents with explicit acceptance criteria, yielding approximately 565 task instances across six SWE subdomains. We introduce a deterministic verification framework that maps each task's acceptance criteria to execution-based tests, enabling controlled paired evaluation with and without the skill. Our results show that skill injection benefits are far more limited than rapid adoption suggests: 39 of 49 skills yield zero pass-rate improvement, and the average gain is only +1.2%. Token overhead varies from modest savings to a 451% increase while pass rates remain unchanged. Only seven specialized skills produce meaningful gains (up to +30%), while three degrade performance (up to -10%) due to version-mismatched guidance conflicting with project context. These findings suggest that agent skills are a narrow intervention whose utility depends strongly on domain fit, abstraction level, and contextual compatibility. SWE-Skills-Bench provides a testbed for evaluating the design, selection, and deployment of skills in software engineering agents. SWE-Skills-Bench is available at https://github.com/GeniusHTX/SWE-Skills-Bench.

SWE-Skills-Bench: As Habilidades dos Agentes Realmente Ajudam na Engenharia de Software do Mundo Real?

SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

Resumo

Support