SWE-rebench: Una Canalización Automatizada para la Recopilación de Tareas y la Evaluación Descontaminada de Agentes de Ingeniería de Software

Resumen

Los agentes basados en LLM han demostrado capacidades prometedoras en una creciente variedad de tareas de ingeniería de software (SWE). Sin embargo, el avance en este campo enfrenta dos desafíos críticos. En primer lugar, los datos de entrenamiento de alta calidad son escasos, especialmente aquellos que reflejan escenarios reales de SWE, donde los agentes deben interactuar con entornos de desarrollo, ejecutar código y adaptar su comportamiento en función de los resultados de sus acciones. Los conjuntos de datos existentes se limitan a la generación de código en una sola iteración o consisten en pequeñas colecciones manualmente curadas de tareas interactivas, careciendo tanto de escala como de diversidad. En segundo lugar, la falta de tareas interactivas de SWE actualizadas afecta la evaluación de modelos que mejoran rápidamente, ya que los puntos de referencia estáticos se vuelven obsoletos rápidamente debido a problemas de contaminación. Para abordar estas limitaciones, presentamos una novedosa, automatizada y escalable pipeline para extraer continuamente tareas interactivas de SWE del mundo real de diversos repositorios de GitHub. Utilizando esta pipeline, construimos SWE-rebench, un conjunto de datos público que comprende más de 21,000 tareas interactivas de SWE basadas en Python, adecuadas para el aprendizaje por refuerzo de agentes de SWE a gran escala. Además, utilizamos el suministro continuo de tareas actualizadas recopiladas mediante la metodología de SWE-rebench para construir un punto de referencia libre de contaminación para la ingeniería de software agentiva. Comparamos los resultados de varios LLMs en este punto de referencia con los resultados de SWE-bench Verified y mostramos que el rendimiento de algunos modelos de lenguaje podría estar inflado debido a problemas de contaminación.

English

LLM-based agents have shown promising capabilities in a growing range of software engineering (SWE) tasks. However, advancing this field faces two critical challenges. First, high-quality training data is scarce, especially data that reflects real-world SWE scenarios, where agents must interact with development environments, execute code and adapt behavior based on the outcomes of their actions. Existing datasets are either limited to one-shot code generation or comprise small, manually curated collections of interactive tasks, lacking both scale and diversity. Second, the lack of fresh interactive SWE tasks affects evaluation of rapidly improving models, as static benchmarks quickly become outdated due to contamination issues. To address these limitations, we introduce a novel, automated, and scalable pipeline to continuously extract real-world interactive SWE tasks from diverse GitHub repositories. Using this pipeline, we construct SWE-rebench, a public dataset comprising over 21,000 interactive Python-based SWE tasks, suitable for reinforcement learning of SWE agents at scale. Additionally, we use continuous supply of fresh tasks collected using SWE-rebench methodology to build a contamination-free benchmark for agentic software engineering. We compare results of various LLMs on this benchmark to results on SWE-bench Verified and show that performance of some language models might be inflated due to contamination issues.

SWE-rebench: Una Canalización Automatizada para la Recopilación de Tareas y la Evaluación Descontaminada de Agentes de Ingeniería de Software

SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

Resumen

Support