GSO: Tareas desafiantes de optimización de software para evaluar agentes SWE

Resumen

Desarrollar software de alto rendimiento es una tarea compleja que requiere experiencia especializada. Presentamos GSO, un punto de referencia para evaluar las capacidades de los modelos de lenguaje en el desarrollo de software de alto rendimiento. Desarrollamos una canalización automatizada que genera y ejecuta pruebas de rendimiento para analizar historiales de commits en repositorios, identificando 102 tareas de optimización desafiantes en 10 bases de código, abarcando diversos dominios y lenguajes de programación. Se proporciona a un agente una base de código y una prueba de rendimiento como especificación precisa, y se le asigna la tarea de mejorar la eficiencia en tiempo de ejecución, la cual se mide en comparación con la optimización realizada por desarrolladores expertos. Nuestra evaluación cuantitativa revela que los principales SWE-Agents enfrentan dificultades significativas, logrando una tasa de éxito inferior al 5%, con mejoras limitadas incluso al escalar en tiempo de inferencia. Nuestro análisis cualitativo identifica modos clave de fallo, incluyendo dificultades con lenguajes de bajo nivel, la práctica de estrategias de optimización perezosa y desafíos en la localización precisa de cuellos de botella. Publicamos el código y los artefactos de nuestro punto de referencia junto con las trayectorias de los agentes para facilitar investigaciones futuras.

English

Developing high-performance software is a complex task that requires specialized expertise. We introduce GSO, a benchmark for evaluating language models' capabilities in developing high-performance software. We develop an automated pipeline that generates and executes performance tests to analyze repository commit histories to identify 102 challenging optimization tasks across 10 codebases, spanning diverse domains and programming languages. An agent is provided with a codebase and performance test as a precise specification, and tasked to improve the runtime efficiency, which is measured against the expert developer optimization. Our quantitative evaluation reveals that leading SWE-Agents struggle significantly, achieving less than 5% success rate, with limited improvements even with inference-time scaling. Our qualitative analysis identifies key failure modes, including difficulties with low-level languages, practicing lazy optimization strategies, and challenges in accurately localizing bottlenecks. We release the code and artifacts of our benchmark along with agent trajectories to enable future research.

GSO: Tareas desafiantes de optimización de software para evaluar agentes SWE

GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

Resumen

Support