SWE-rebench: Um Pipeline Automatizado para Coleta de Tarefas e Avaliação Descontaminada de Agentes de Engenharia de Software
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
May 26, 2025
Autores: Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel
cs.AI
Resumo
Agentes baseados em LLMs têm demonstrado capacidades promissoras em uma gama crescente de tarefas de engenharia de software (SWE). No entanto, o avanço desse campo enfrenta dois desafios críticos. Primeiro, dados de treinamento de alta qualidade são escassos, especialmente dados que refletem cenários reais de SWE, onde os agentes precisam interagir com ambientes de desenvolvimento, executar código e adaptar seu comportamento com base nos resultados de suas ações. Os conjuntos de dados existentes são limitados à geração de código em uma única etapa ou consistem em pequenas coleções manualmente curadas de tarefas interativas, carecendo tanto de escala quanto de diversidade. Segundo, a falta de tarefas interativas recentes de SWE afeta a avaliação de modelos que estão melhorando rapidamente, já que benchmarks estáticos rapidamente se tornam desatualizados devido a problemas de contaminação. Para abordar essas limitações, introduzimos um pipeline novo, automatizado e escalável para extrair continuamente tarefas interativas de SWE do mundo real de diversos repositórios do GitHub. Usando esse pipeline, construímos o SWE-rebench, um conjunto de dados público que compreende mais de 21.000 tarefas interativas de SWE baseadas em Python, adequadas para o aprendizado por reforço de agentes de SWE em escala. Além disso, utilizamos o fornecimento contínuo de tarefas recentes coletadas usando a metodologia do SWE-rebench para construir um benchmark livre de contaminação para engenharia de software agentiva. Comparamos os resultados de vários LLMs nesse benchmark com os resultados do SWE-bench Verified e mostramos que o desempenho de alguns modelos de linguagem pode estar inflado devido a problemas de contaminação.
English
LLM-based agents have shown promising capabilities in a growing range of
software engineering (SWE) tasks. However, advancing this field faces two
critical challenges. First, high-quality training data is scarce, especially
data that reflects real-world SWE scenarios, where agents must interact with
development environments, execute code and adapt behavior based on the outcomes
of their actions. Existing datasets are either limited to one-shot code
generation or comprise small, manually curated collections of interactive
tasks, lacking both scale and diversity. Second, the lack of fresh interactive
SWE tasks affects evaluation of rapidly improving models, as static benchmarks
quickly become outdated due to contamination issues. To address these
limitations, we introduce a novel, automated, and scalable pipeline to
continuously extract real-world interactive SWE tasks from diverse GitHub
repositories. Using this pipeline, we construct SWE-rebench, a public dataset
comprising over 21,000 interactive Python-based SWE tasks, suitable for
reinforcement learning of SWE agents at scale. Additionally, we use continuous
supply of fresh tasks collected using SWE-rebench methodology to build a
contamination-free benchmark for agentic software engineering. We compare
results of various LLMs on this benchmark to results on SWE-bench Verified and
show that performance of some language models might be inflated due to
contamination issues.