SWE-Skills-Bench: Le Competenze degli Agenti Sono Davvero Utili nell'Ingegneria del Software Reale?

Abstract

Le abilità degli agenti, pacchetti di conoscenza procedurale strutturata iniettati al momento dell'inferenza, sono sempre più utilizzati per potenziare gli agenti LLM nei compiti di ingegneria del software. Tuttavia, la loro reale utilità in contesti di sviluppo end-to-end rimane poco chiara. Presentiamo SWE-Skills-Bench, il primo benchmark guidato dai requisiti che isola l'utilità marginale delle abilità degli agenti nell'ingegneria del software (SWE) reale. Abbina 49 abilità SWE pubbliche a repository GitHub autentici ancorati a commit specifici e a documenti di requisiti con criteri di accettazione espliciti, generando approssimativamente 565 istanze di compiti in sei sottodomini SWE. Introduciamo un framework di verifica deterministico che mappa i criteri di accettazione di ogni compito a test basati sull'esecuzione, consentendo una valutazione controllata in coppia con e senza l'abilità. I nostri risultati mostrano che i benefici dell'iniezione delle abilità sono molto più limitati di quanto l'adozione rapida suggerisca: 39 delle 49 abilità non producono alcun miglioramento del tasso di successo, e il guadagno medio è solo del +1,2%. L'overhead dei token varia da risparmi modesti a un aumento del 451%, mentre i tassi di successo rimangono invariati. Solo sette abilità specializzate producono guadagni significativi (fino a +30%), mentre tre peggiorano le prestazioni (fino a -10%) a causa di linee guida con mismatch di versione in conflitto con il contesto del progetto. Questi risultati suggeriscono che le abilità degli agenti sono un intervento limitato, la cui utilità dipende fortemente dall'adeguatezza al dominio, dal livello di astrazione e dalla compatibilità contestuale. SWE-Skills-Bench fornisce un banco di prova per valutare la progettazione, la selezione e il deployment delle abilità negli agenti di ingegneria del software. SWE-Skills-Bench è disponibile all'indirizzo https://github.com/GeniusHTX/SWE-Skills-Bench.

English

Agent skills, structured procedural knowledge packages injected at inference time, are increasingly used to augment LLM agents on software engineering tasks. However, their real utility in end-to-end development settings remains unclear. We present SWE-Skills-Bench, the first requirement-driven benchmark that isolates the marginal utility of agent skills in real-world software engineering (SWE). It pairs 49 public SWE skills with authentic GitHub repositories pinned at fixed commits and requirement documents with explicit acceptance criteria, yielding approximately 565 task instances across six SWE subdomains. We introduce a deterministic verification framework that maps each task's acceptance criteria to execution-based tests, enabling controlled paired evaluation with and without the skill. Our results show that skill injection benefits are far more limited than rapid adoption suggests: 39 of 49 skills yield zero pass-rate improvement, and the average gain is only +1.2%. Token overhead varies from modest savings to a 451% increase while pass rates remain unchanged. Only seven specialized skills produce meaningful gains (up to +30%), while three degrade performance (up to -10%) due to version-mismatched guidance conflicting with project context. These findings suggest that agent skills are a narrow intervention whose utility depends strongly on domain fit, abstraction level, and contextual compatibility. SWE-Skills-Bench provides a testbed for evaluating the design, selection, and deployment of skills in software engineering agents. SWE-Skills-Bench is available at https://github.com/GeniusHTX/SWE-Skills-Bench.

SWE-Skills-Bench: Le Competenze degli Agenti Sono Davvero Utili nell'Ingegneria del Software Reale?

SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

Abstract

Support