SWE-Skills-Bench: Helpen Agentvaardigheden Echt bij Real-World Software Engineering?

Samenvatting

Agent skills, gestructureerde pakketten van procedurele kennis die tijdens inferentie worden geïnjecteerd, worden steeds vaker gebruikt om LLM-agents te versterken bij software-engineeringtaken. Hun werkelijke nut in end-to-end ontwikkelomgevingen blijft echter onduidelijk. Wij presenteren SWE-Skills-Bench, de eerste requirement-gestuurde benchmark die het marginale nut van agent skills in real-world software engineering (SWE) isoleert. Het koppelt 49 publieke SWE-skills aan authentieke GitHub-repositories vastgezet op specifieke commits en requirement-documenten met expliciete acceptatiecriteria, wat ongeveer 565 taakinstanties oplevert verspreid over zes SWE-subdomeinen. We introduceren een deterministisch verificatieraamwerk dat de acceptatiecriteria van elke taak vertaalt naar op uitvoering gebaseerde tests, waardoor een gecontroleerde gepaarde evaluatie mét en zonder de skill mogelijk is. Onze resultaten tonen aan dat de voordelen van skill-injectie veel beperkter zijn dan de snelle adoptie doet vermoeden: 39 van de 49 skills leveren geen enkele verbetering in slaagpercentage op, en de gemiddelde winst bedraagt slechts +1,2%. De token-overhead varieert van bescheiden besparingen tot een stijging van 451% terwijl de slaagpercentages onveranderd blijven. Slechts zeven gespecialiseerde skills produceren betekenisvolle winst (tot +30%), terwijl drie de prestaties verslechteren (tot -10%) door versie-incompatibele instructies die conflicteren met de projectcontext. Deze bevindingen suggereren dat agent skills een beperkte interventie zijn waarvan het nut sterk afhangt van domeinpassing, abstractieniveau en contextuele compatibiliteit. SWE-Skills-Bench biedt een testomgeving voor het evalueren van het ontwerp, de selectie en de inzet van skills in software-engineeringagents. SWE-Skills-Bench is beschikbaar op https://github.com/GeniusHTX/SWE-Skills-Bench.

English

Agent skills, structured procedural knowledge packages injected at inference time, are increasingly used to augment LLM agents on software engineering tasks. However, their real utility in end-to-end development settings remains unclear. We present SWE-Skills-Bench, the first requirement-driven benchmark that isolates the marginal utility of agent skills in real-world software engineering (SWE). It pairs 49 public SWE skills with authentic GitHub repositories pinned at fixed commits and requirement documents with explicit acceptance criteria, yielding approximately 565 task instances across six SWE subdomains. We introduce a deterministic verification framework that maps each task's acceptance criteria to execution-based tests, enabling controlled paired evaluation with and without the skill. Our results show that skill injection benefits are far more limited than rapid adoption suggests: 39 of 49 skills yield zero pass-rate improvement, and the average gain is only +1.2%. Token overhead varies from modest savings to a 451% increase while pass rates remain unchanged. Only seven specialized skills produce meaningful gains (up to +30%), while three degrade performance (up to -10%) due to version-mismatched guidance conflicting with project context. These findings suggest that agent skills are a narrow intervention whose utility depends strongly on domain fit, abstraction level, and contextual compatibility. SWE-Skills-Bench provides a testbed for evaluating the design, selection, and deployment of skills in software engineering agents. SWE-Skills-Bench is available at https://github.com/GeniusHTX/SWE-Skills-Bench.

SWE-Skills-Bench: Helpen Agentvaardigheden Echt bij Real-World Software Engineering?

SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

Samenvatting

Support