SWE-bench Está no Ar!
SWE-bench Goes Live!
May 29, 2025
Autores: Linghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang
cs.AI
Resumo
A tarefa de resolução de problemas, na qual um modelo gera patches para corrigir bugs do mundo real, emergiu como um benchmark crítico para avaliar as capacidades de modelos de linguagem de grande escala (LLMs). Embora o SWE-bench e suas variantes tenham se tornado padrão nesse domínio, eles sofrem de limitações importantes: não foram atualizados desde seus lançamentos iniciais, cobrem um conjunto restrito de repositórios e dependem fortemente de esforço manual para a construção de instâncias e configuração do ambiente. Esses fatores prejudicam a escalabilidade e introduzem riscos de sobreajuste e contaminação de dados. Neste trabalho, apresentamos o SWE-bench-Live, um benchmark atualizável em tempo real projetado para superar esses desafios. Nossa versão inicial consiste em 1.319 tarefas derivadas de problemas reais do GitHub criados desde 2024, abrangendo 93 repositórios. Cada tarefa é acompanhada por uma imagem Docker dedicada para garantir execução reproduzível. Central ao nosso benchmark é o \method, um pipeline de curadoria automatizado que simplifica todo o processo, desde a criação de instâncias até a configuração do ambiente, eliminando gargalos manuais e permitindo escalabilidade e atualizações contínuas. Avaliamos uma variedade de frameworks de agentes e LLMs de ponta no SWE-bench-Live, revelando uma lacuna substancial de desempenho em comparação com benchmarks estáticos como o SWE-bench, mesmo sob condições de avaliação controladas. Para entender melhor essa discrepância, realizamos análises detalhadas em relação à origem do repositório, à recenticidade do problema e à dificuldade da tarefa. Ao fornecer um benchmark fresco, diversificado e executável, baseado na atividade em tempo real de repositórios, o SWE-bench-Live facilita uma avaliação rigorosa e resistente à contaminação de LLMs e agentes em cenários dinâmicos e reais de desenvolvimento de software.
English
The issue-resolving task, where a model generates patches to fix real-world
bugs, has emerged as a critical benchmark for evaluating the capabilities of
large language models (LLMs). While SWE-bench and its variants have become
standard in this domain, they suffer from key limitations: they have not been
updated since their initial releases, cover a narrow set of repositories, and
depend heavily on manual effort for instance construction and environment
setup. These factors hinder scalability and introduce risks of overfitting and
data contamination. In this work, we present SWE-bench-Live, a
live-updatable benchmark designed to overcome these challenges. Our
initial release consists of 1,319 tasks derived from real GitHub issues created
since 2024, spanning 93 repositories. Each task is accompanied by a dedicated
Docker image to ensure reproducible execution. Central to our benchmark is
\method, an automated curation pipeline that streamlines the entire process
from instance creation to environment setup, removing manual bottlenecks and
enabling scalability and continuous updates. We evaluate a range of
state-of-the-art agent frameworks and LLMs on SWE-bench-Live, revealing a
substantial performance gap compared to static benchmarks like SWE-bench, even
under controlled evaluation conditions. To better understand this discrepancy,
we perform detailed analyses across repository origin, issue recency, and task
difficulty. By providing a fresh, diverse, and executable benchmark grounded in
live repository activity, SWE-bench-Live facilitates rigorous,
contamination-resistant evaluation of LLMs and agents in dynamic, real-world
software development settings.