SWE-Skills-Bench : Les compétences des agents aident-elles réellement dans l'ingénierie logicielle réelle ?
SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?
March 16, 2026
Auteurs: Tingxu Han, Yi Zhang, Wei Song, Chunrong Fang, Zhenyu Chen, Youcheng Sun, Lijie Hu
cs.AI
Résumé
Les compétences d'agent, des ensembles de connaissances procédurales structurées injectées au moment de l'inférence, sont de plus en plus utilisées pour améliorer les agents de LLM sur les tâches de génie logiciel. Cependant, leur utilité réelle dans des contextes de développement de bout en bout reste incertaine. Nous présentons SWE-Skills-Bench, le premier benchmark axé sur les exigences qui isole l'utilité marginale des compétences d'agent dans le génie logiciel (SWE) réel. Il associe 49 compétences SWE publiques à des dépôts GitHub authentiques figés à des commits spécifiques et à des documents d'exigences avec des critères d'acceptation explicites, produisant environ 565 instances de tâches réparties dans six sous-domaines du SWE. Nous introduisons un cadre de vérification déterministe qui mappe les critères d'acceptation de chaque tâche à des tests basés sur l'exécution, permettant une évaluation contrôlée par paires avec et sans la compétence. Nos résultats montrent que les bénéfices de l'injection de compétences sont bien plus limités que ne le suggère l'adoption rapide : 39 compétences sur 49 n'apportent aucune amélioration du taux de réussite, et le gain moyen n'est que de +1,2 %. La surcharge en tokens varie de modestes économies à une augmentation de 451 %, tandis que les taux de réussite restent inchangés. Seules sept compétences spécialisées produisent des gains significatifs (jusqu'à +30 %), tandis que trois dégradent les performances (jusqu'à -10 %) en raison de directives inadaptées à la version qui entrent en conflit avec le contexte du projet. Ces résultats suggèrent que les compétences d'agent sont une intervention limitée dont l'utilité dépend fortement de l'adéquation au domaine, du niveau d'abstraction et de la compatibilité contextuelle. SWE-Skills-Bench fournit un banc d'essai pour évaluer la conception, la sélection et le déploiement des compétences dans les agents de génie logiciel. SWE-Skills-Bench est disponible à l'adresse https://github.com/GeniusHTX/SWE-Skills-Bench.
English
Agent skills, structured procedural knowledge packages injected at inference time, are increasingly used to augment LLM agents on software engineering tasks. However, their real utility in end-to-end development settings remains unclear. We present SWE-Skills-Bench, the first requirement-driven benchmark that isolates the marginal utility of agent skills in real-world software engineering (SWE). It pairs 49 public SWE skills with authentic GitHub repositories pinned at fixed commits and requirement documents with explicit acceptance criteria, yielding approximately 565 task instances across six SWE subdomains. We introduce a deterministic verification framework that maps each task's acceptance criteria to execution-based tests, enabling controlled paired evaluation with and without the skill. Our results show that skill injection benefits are far more limited than rapid adoption suggests: 39 of 49 skills yield zero pass-rate improvement, and the average gain is only +1.2%. Token overhead varies from modest savings to a 451% increase while pass rates remain unchanged. Only seven specialized skills produce meaningful gains (up to +30%), while three degrade performance (up to -10%) due to version-mismatched guidance conflicting with project context. These findings suggest that agent skills are a narrow intervention whose utility depends strongly on domain fit, abstraction level, and contextual compatibility. SWE-Skills-Bench provides a testbed for evaluating the design, selection, and deployment of skills in software engineering agents. SWE-Skills-Bench is available at https://github.com/GeniusHTX/SWE-Skills-Bench.