SWE-Skills-Bench: Helfen Agenten-Fähigkeiten tatsächlich in der realen Softwareentwicklung?

Zusammenfassung

Agent Skills, strukturierte Pakete prozeduralen Wissens, die zur Inferenzzeit injiziert werden, werden zunehmend eingesetzt, um LLM-Agenten bei Softwareentwicklungsaufgaben zu erweitern. Ihr tatsächlicher Nutzen in end-to-end Entwicklungsumgebungen bleibt jedoch unklar. Wir stellen SWE-Skills-Bench vor, den ersten anforderungengetriebenen Benchmark, der den marginalen Nutzen von Agent Skills in realer Softwareentwicklung (SWE) isoliert. Er kombiniert 49 öffentliche SWE-Skills mit authentischen GitHub-Repositories, die auf feste Commits festgepinnt sind, sowie Anforderungsdokumenten mit expliziten Akzeptanzkriterien, was etwa 565 Aufgabeninstanzen über sechs SWE-Subdomänen hinweg ergibt. Wir führen ein deterministisches Verifikationsframework ein, das die Akzeptanzkriterien jeder Aufgabe auf ausführungsbasierte Tests abbildet und so eine kontrollierte paarweise Evaluation mit und ohne den Skill ermöglicht. Unsere Ergebnisse zeigen, dass die Vorteile der Skill-Injektion weitaus begrenzter sind als die rasche Adoption vermuten lässt: 39 von 49 Skills bringen keine Verbesserung der Bestehensrate, und der durchschnittliche Gewinn beträgt nur +1,2 %. Der Token-Mehraufwand reicht von moderaten Einsparungen bis zu einer Steigerung um 451 %, während die Bestehensraten unverändert bleiben. Nur sieben spezialisierte Skills erzielen bedeutende Verbesserungen (bis zu +30 %), während drei die Leistung verschlechtern (bis zu -10 %), da versionsinkongruente Anweisungen mit dem Projektkonflikt kollidieren. Diese Ergebnisse legen nahe, dass Agent Skills eine begrenzte Intervention sind, deren Nützlichkeit stark von Domänenpassung, Abstraktionsniveau und kontextueller Kompatibilität abhängt. SWE-Skills-Bench bietet eine Testumgebung zur Bewertung des Designs, der Auswahl und des Einsatzes von Skills in Softwareentwicklungs-Agenten. SWE-Skills-Bench ist verfügbar unter https://github.com/GeniusHTX/SWE-Skills-Bench.

English

Agent skills, structured procedural knowledge packages injected at inference time, are increasingly used to augment LLM agents on software engineering tasks. However, their real utility in end-to-end development settings remains unclear. We present SWE-Skills-Bench, the first requirement-driven benchmark that isolates the marginal utility of agent skills in real-world software engineering (SWE). It pairs 49 public SWE skills with authentic GitHub repositories pinned at fixed commits and requirement documents with explicit acceptance criteria, yielding approximately 565 task instances across six SWE subdomains. We introduce a deterministic verification framework that maps each task's acceptance criteria to execution-based tests, enabling controlled paired evaluation with and without the skill. Our results show that skill injection benefits are far more limited than rapid adoption suggests: 39 of 49 skills yield zero pass-rate improvement, and the average gain is only +1.2%. Token overhead varies from modest savings to a 451% increase while pass rates remain unchanged. Only seven specialized skills produce meaningful gains (up to +30%), while three degrade performance (up to -10%) due to version-mismatched guidance conflicting with project context. These findings suggest that agent skills are a narrow intervention whose utility depends strongly on domain fit, abstraction level, and contextual compatibility. SWE-Skills-Bench provides a testbed for evaluating the design, selection, and deployment of skills in software engineering agents. SWE-Skills-Bench is available at https://github.com/GeniusHTX/SWE-Skills-Bench.

SWE-Skills-Bench: Helfen Agenten-Fähigkeiten tatsächlich in der realen Softwareentwicklung?

SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

Zusammenfassung

Support