SWE-rebench: Um Pipeline Automatizado para Coleta de Tarefas e Avaliação Descontaminada de Agentes de Engenharia de Software

Resumo

Agentes baseados em LLMs têm demonstrado capacidades promissoras em uma gama crescente de tarefas de engenharia de software (SWE). No entanto, o avanço desse campo enfrenta dois desafios críticos. Primeiro, dados de treinamento de alta qualidade são escassos, especialmente dados que refletem cenários reais de SWE, onde os agentes precisam interagir com ambientes de desenvolvimento, executar código e adaptar seu comportamento com base nos resultados de suas ações. Os conjuntos de dados existentes são limitados à geração de código em uma única etapa ou consistem em pequenas coleções manualmente curadas de tarefas interativas, carecendo tanto de escala quanto de diversidade. Segundo, a falta de tarefas interativas recentes de SWE afeta a avaliação de modelos que estão melhorando rapidamente, já que benchmarks estáticos rapidamente se tornam desatualizados devido a problemas de contaminação. Para abordar essas limitações, introduzimos um pipeline novo, automatizado e escalável para extrair continuamente tarefas interativas de SWE do mundo real de diversos repositórios do GitHub. Usando esse pipeline, construímos o SWE-rebench, um conjunto de dados público que compreende mais de 21.000 tarefas interativas de SWE baseadas em Python, adequadas para o aprendizado por reforço de agentes de SWE em escala. Além disso, utilizamos o fornecimento contínuo de tarefas recentes coletadas usando a metodologia do SWE-rebench para construir um benchmark livre de contaminação para engenharia de software agentiva. Comparamos os resultados de vários LLMs nesse benchmark com os resultados do SWE-bench Verified e mostramos que o desempenho de alguns modelos de linguagem pode estar inflado devido a problemas de contaminação.

English

LLM-based agents have shown promising capabilities in a growing range of software engineering (SWE) tasks. However, advancing this field faces two critical challenges. First, high-quality training data is scarce, especially data that reflects real-world SWE scenarios, where agents must interact with development environments, execute code and adapt behavior based on the outcomes of their actions. Existing datasets are either limited to one-shot code generation or comprise small, manually curated collections of interactive tasks, lacking both scale and diversity. Second, the lack of fresh interactive SWE tasks affects evaluation of rapidly improving models, as static benchmarks quickly become outdated due to contamination issues. To address these limitations, we introduce a novel, automated, and scalable pipeline to continuously extract real-world interactive SWE tasks from diverse GitHub repositories. Using this pipeline, we construct SWE-rebench, a public dataset comprising over 21,000 interactive Python-based SWE tasks, suitable for reinforcement learning of SWE agents at scale. Additionally, we use continuous supply of fresh tasks collected using SWE-rebench methodology to build a contamination-free benchmark for agentic software engineering. We compare results of various LLMs on this benchmark to results on SWE-bench Verified and show that performance of some language models might be inflated due to contamination issues.

SWE-rebench: Um Pipeline Automatizado para Coleta de Tarefas e Avaliação Descontaminada de Agentes de Engenharia de Software

SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

Resumo

Support