¡SWE-bench se pone en marcha!
SWE-bench Goes Live!
May 29, 2025
Autores: Linghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang
cs.AI
Resumen
La tarea de resolución de problemas, en la que un modelo genera parches para corregir errores del mundo real, ha surgido como un criterio crítico para evaluar las capacidades de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Si bien SWE-bench y sus variantes se han convertido en estándares en este dominio, presentan limitaciones clave: no se han actualizado desde sus lanzamientos iniciales, cubren un conjunto reducido de repositorios y dependen en gran medida del esfuerzo manual para la construcción de instancias y la configuración del entorno. Estos factores obstaculizan la escalabilidad e introducen riesgos de sobreajuste y contaminación de datos. En este trabajo, presentamos SWE-bench-Live, un punto de referencia actualizable en tiempo real diseñado para superar estos desafíos. Nuestra versión inicial consta de 1,319 tareas derivadas de problemas reales de GitHub creados desde 2024, abarcando 93 repositorios. Cada tarea viene acompañada de una imagen de Docker dedicada para garantizar una ejecución reproducible. El núcleo de nuestro punto de referencia es \method, una canalización de curación automatizada que optimiza todo el proceso, desde la creación de instancias hasta la configuración del entorno, eliminando cuellos de botella manuales y permitiendo escalabilidad y actualizaciones continuas. Evaluamos una gama de marcos de agentes y LLMs de vanguardia en SWE-bench-Live, revelando una brecha de rendimiento sustancial en comparación con puntos de referencia estáticos como SWE-bench, incluso bajo condiciones de evaluación controladas. Para comprender mejor esta discrepancia, realizamos análisis detallados en función del origen del repositorio, la antigüedad del problema y la dificultad de la tarea. Al proporcionar un punto de referencia fresco, diverso y ejecutable basado en la actividad en tiempo real de los repositorios, SWE-bench-Live facilita una evaluación rigurosa y resistente a la contaminación de LLMs y agentes en entornos dinámicos y reales de desarrollo de software.
English
The issue-resolving task, where a model generates patches to fix real-world
bugs, has emerged as a critical benchmark for evaluating the capabilities of
large language models (LLMs). While SWE-bench and its variants have become
standard in this domain, they suffer from key limitations: they have not been
updated since their initial releases, cover a narrow set of repositories, and
depend heavily on manual effort for instance construction and environment
setup. These factors hinder scalability and introduce risks of overfitting and
data contamination. In this work, we present SWE-bench-Live, a
live-updatable benchmark designed to overcome these challenges. Our
initial release consists of 1,319 tasks derived from real GitHub issues created
since 2024, spanning 93 repositories. Each task is accompanied by a dedicated
Docker image to ensure reproducible execution. Central to our benchmark is
\method, an automated curation pipeline that streamlines the entire process
from instance creation to environment setup, removing manual bottlenecks and
enabling scalability and continuous updates. We evaluate a range of
state-of-the-art agent frameworks and LLMs on SWE-bench-Live, revealing a
substantial performance gap compared to static benchmarks like SWE-bench, even
under controlled evaluation conditions. To better understand this discrepancy,
we perform detailed analyses across repository origin, issue recency, and task
difficulty. By providing a fresh, diverse, and executable benchmark grounded in
live repository activity, SWE-bench-Live facilitates rigorous,
contamination-resistant evaluation of LLMs and agents in dynamic, real-world
software development settings.Summary
AI-Generated Summary