SWE-eficiencia: ¿Pueden los Modelos de Lenguaje Optimizar Repositorios del Mundo Real con Cargas de Trabajo Reales?

Resumen

La optimización del rendimiento de repositorios de software a gran escala requiere experiencia en razonamiento de código e ingeniería de software (SWE) para reducir el tiempo de ejecución preservando la corrección del programa. Sin embargo, la mayoría de los puntos de referencia enfatizan qué corregir en lugar de cómo corregir el código. Presentamos SWE-fficiency, un benchmark para evaluar la optimización de rendimiento a nivel de repositorio en cargas de trabajo reales. Nuestra suite contiene 498 tareas distribuidas en nueve repositorios ampliamente utilizados de ciencia de datos, aprendizaje automático y HPC (por ejemplo, numpy, pandas, scipy): dado un código base completo y una carga de trabajo lenta, un agente debe investigar la semántica del código, localizar cuellos de botella y pruebas relevantes, y producir un parche que iguale o supere la aceleración experta mientras pasa las mismas pruebas unitarias. Para permitir esta evaluación de cómo corregir, nuestra canalización automatizada extrae solicitudes de extracción de GitHub para ediciones de mejora de rendimiento, combinando filtrado por palabras clave, análisis estático, herramientas de cobertura y validación de ejecución para confirmar tanto las líneas base de aceleración experta como identificar las pruebas unitarias relevantes del repositorio. La evaluación empírica de agentes de última generación revela un rendimiento significativamente inferior. En promedio, los agentes logran menos de 0.15 veces la aceleración experta: los agentes tienen dificultades para localizar oportunidades de optimización, razonar sobre la ejecución entre funciones y mantener la corrección en las ediciones propuestas. Publicamos el benchmark y la canalización de datos adjunta para facilitar la investigación sobre ingeniería de rendimiento automatizada y razonamiento de software de largo alcance.

English

Optimizing the performance of large-scale software repositories demands expertise in code reasoning and software engineering (SWE) to reduce runtime while preserving program correctness. However, most benchmarks emphasize what to fix rather than how to fix code. We introduce SWE-fficiency, a benchmark for evaluating repository-level performance optimization on real workloads. Our suite contains 498 tasks across nine widely used data-science, machine-learning, and HPC repositories (e.g., numpy, pandas, scipy): given a complete codebase and a slow workload, an agent must investigate code semantics, localize bottlenecks and relevant tests, and produce a patch that matches or exceeds expert speedup while passing the same unit tests. To enable this how-to-fix evaluation, our automated pipeline scrapes GitHub pull requests for performance-improving edits, combining keyword filtering, static analysis, coverage tooling, and execution validation to both confirm expert speedup baselines and identify relevant repository unit tests. Empirical evaluation of state-of-the-art agents reveals significant underperformance. On average, agents achieve less than 0.15x the expert speedup: agents struggle in localizing optimization opportunities, reasoning about execution across functions, and maintaining correctness in proposed edits. We release the benchmark and accompanying data pipeline to facilitate research on automated performance engineering and long-horizon software reasoning.

SWE-eficiencia: ¿Pueden los Modelos de Lenguaje Optimizar Repositorios del Mundo Real con Cargas de Trabajo Reales?

SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

Resumen

Support