SWE-rebench: Una Canalización Automatizada para la Recopilación de Tareas y la Evaluación Descontaminada de Agentes de Ingeniería de Software
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
May 26, 2025
Autores: Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel
cs.AI
Resumen
Los agentes basados en LLM han demostrado capacidades prometedoras en una creciente variedad de tareas de ingeniería de software (SWE). Sin embargo, el avance en este campo enfrenta dos desafíos críticos. En primer lugar, los datos de entrenamiento de alta calidad son escasos, especialmente aquellos que reflejan escenarios reales de SWE, donde los agentes deben interactuar con entornos de desarrollo, ejecutar código y adaptar su comportamiento en función de los resultados de sus acciones. Los conjuntos de datos existentes se limitan a la generación de código en una sola iteración o consisten en pequeñas colecciones manualmente curadas de tareas interactivas, careciendo tanto de escala como de diversidad. En segundo lugar, la falta de tareas interactivas de SWE actualizadas afecta la evaluación de modelos que mejoran rápidamente, ya que los puntos de referencia estáticos se vuelven obsoletos rápidamente debido a problemas de contaminación. Para abordar estas limitaciones, presentamos una novedosa, automatizada y escalable pipeline para extraer continuamente tareas interactivas de SWE del mundo real de diversos repositorios de GitHub. Utilizando esta pipeline, construimos SWE-rebench, un conjunto de datos público que comprende más de 21,000 tareas interactivas de SWE basadas en Python, adecuadas para el aprendizaje por refuerzo de agentes de SWE a gran escala. Además, utilizamos el suministro continuo de tareas actualizadas recopiladas mediante la metodología de SWE-rebench para construir un punto de referencia libre de contaminación para la ingeniería de software agentiva. Comparamos los resultados de varios LLMs en este punto de referencia con los resultados de SWE-bench Verified y mostramos que el rendimiento de algunos modelos de lenguaje podría estar inflado debido a problemas de contaminación.
English
LLM-based agents have shown promising capabilities in a growing range of
software engineering (SWE) tasks. However, advancing this field faces two
critical challenges. First, high-quality training data is scarce, especially
data that reflects real-world SWE scenarios, where agents must interact with
development environments, execute code and adapt behavior based on the outcomes
of their actions. Existing datasets are either limited to one-shot code
generation or comprise small, manually curated collections of interactive
tasks, lacking both scale and diversity. Second, the lack of fresh interactive
SWE tasks affects evaluation of rapidly improving models, as static benchmarks
quickly become outdated due to contamination issues. To address these
limitations, we introduce a novel, automated, and scalable pipeline to
continuously extract real-world interactive SWE tasks from diverse GitHub
repositories. Using this pipeline, we construct SWE-rebench, a public dataset
comprising over 21,000 interactive Python-based SWE tasks, suitable for
reinforcement learning of SWE agents at scale. Additionally, we use continuous
supply of fresh tasks collected using SWE-rebench methodology to build a
contamination-free benchmark for agentic software engineering. We compare
results of various LLMs on this benchmark to results on SWE-bench Verified and
show that performance of some language models might be inflated due to
contamination issues.Summary
AI-Generated Summary