SWE-Skills-Bench: ¿Realmente Ayudan las Habilidades de los Agentes en la Ingeniería de Software del Mundo Real?

Resumen

Las habilidades de agente, paquetes de conocimiento procedimental estructurado inyectados en tiempo de inferencia, se utilizan cada vez más para aumentar a los agentes de LLM en tareas de ingeniería de software. Sin embargo, su utilidad real en entornos de desarrollo integral sigue sin estar clara. Presentamos SWE-Skills-Bench, el primer benchmark basado en requisitos que aísla la utilidad marginal de las habilidades de agente en la ingeniería de software (SWE) del mundo real. Empareja 49 habilidades públicas de SWE con repositorios auténticos de GitHub anclados en commits específicos y documentos de requisitos con criterios de aceptación explícitos, generando aproximadamente 565 instancias de tareas en seis subdominios de SWE. Introducimos un marco de verificación determinista que mapea los criterios de aceptación de cada tarea a pruebas basadas en ejecución, permitiendo una evaluación pareada controlada con y sin la habilidad. Nuestros resultados muestran que los beneficios de la inyección de habilidades son mucho más limitados de lo que su rápida adopción sugiere: 39 de 49 habilidades no producen ninguna mejora en la tasa de aprobación, y la ganancia promedio es de solo +1,2%. La sobrecarga de tokens varía desde ahorros modestos hasta un aumento del 451%, mientras que las tasas de aprobación permanecen inalteradas. Solo siete habilidades especializadas producen mejoras significativas (hasta +30%), mientras que tres degradan el rendimiento (hasta -10%) debido a instrucciones con desajustes de versión que entran en conflicto con el contexto del proyecto. Estos hallazgos sugieren que las habilidades de agente son una intervención limitada cuya utilidad depende en gran medida del ajuste al dominio, el nivel de abstracción y la compatibilidad contextual. SWE-Skills-Bench proporciona un banco de pruebas para evaluar el diseño, selección e implementación de habilidades en agentes de ingeniería de software. SWE-Skills-Bench está disponible en https://github.com/GeniusHTX/SWE-Skills-Bench.

English

Agent skills, structured procedural knowledge packages injected at inference time, are increasingly used to augment LLM agents on software engineering tasks. However, their real utility in end-to-end development settings remains unclear. We present SWE-Skills-Bench, the first requirement-driven benchmark that isolates the marginal utility of agent skills in real-world software engineering (SWE). It pairs 49 public SWE skills with authentic GitHub repositories pinned at fixed commits and requirement documents with explicit acceptance criteria, yielding approximately 565 task instances across six SWE subdomains. We introduce a deterministic verification framework that maps each task's acceptance criteria to execution-based tests, enabling controlled paired evaluation with and without the skill. Our results show that skill injection benefits are far more limited than rapid adoption suggests: 39 of 49 skills yield zero pass-rate improvement, and the average gain is only +1.2%. Token overhead varies from modest savings to a 451% increase while pass rates remain unchanged. Only seven specialized skills produce meaningful gains (up to +30%), while three degrade performance (up to -10%) due to version-mismatched guidance conflicting with project context. These findings suggest that agent skills are a narrow intervention whose utility depends strongly on domain fit, abstraction level, and contextual compatibility. SWE-Skills-Bench provides a testbed for evaluating the design, selection, and deployment of skills in software engineering agents. SWE-Skills-Bench is available at https://github.com/GeniusHTX/SWE-Skills-Bench.

SWE-Skills-Bench: ¿Realmente Ayudan las Habilidades de los Agentes en la Ingeniería de Software del Mundo Real?

SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

Resumen

Support