SWE-CI: Avaliação de Capacidades de Agentes na Manutenção de Bases de Código via Integração Contínua
SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
March 4, 2026
Autores: Jialong Chen, Xander Xu, Hu Wei, Chuan Chen, Bing Zhao
cs.AI
Resumo
Os agentes baseados em grandes modelos de linguagem (LLMs) têm demonstrado capacidades notáveis na automação de tarefas de engenharia de software, como correção estática de bugs, conforme evidenciado por benchmarks como o SWE-bench. No entanto, no mundo real, o desenvolvimento de software maduro normalmente depende de mudanças complexas de requisitos e iterações de funcionalidades de longo prazo – um processo que os paradigmas de correção estática e única não conseguem capturar. Para preencher essa lacuna, propomos o SWE-CI, o primeiro benchmark em nível de repositório construído sobre o ciclo de Integração Contínua, visando deslocar o paradigma de avaliação para geração de código da correção funcional estática e de curto prazo para a mantenabilidade dinâmica e de longo prazo. O benchmark compreende 100 tarefas, cada uma correspondendo em média a um histórico de evolução de 233 dias e 71 commits consecutivos em um repositório de código do mundo real. O SWE-CI exige que os agentes resolvam sistematicamente essas tarefas por meio de dezenas de rodadas de análise e iterações de codificação. O SWE-CI fornece insights valiosos sobre quão bem os agentes podem sustentar a qualidade do código ao longo de uma evolução de longo prazo.
English
Large language model (LLM)-powered agents have demonstrated strong capabilities in automating software engineering tasks such as static bug fixing, as evidenced by benchmarks like SWE-bench. However, in the real world, the development of mature software is typically predicated on complex requirement changes and long-term feature iterations -- a process that static, one-shot repair paradigms fail to capture. To bridge this gap, we propose SWE-CI, the first repository-level benchmark built upon the Continuous Integration loop, aiming to shift the evaluation paradigm for code generation from static, short-term functional correctness toward dynamic, long-term maintainability. The benchmark comprises 100 tasks, each corresponding on average to an evolution history spanning 233 days and 71 consecutive commits in a real-world code repository. SWE-CI requires agents to systematically resolve these tasks through dozens of rounds of analysis and coding iterations. SWE-CI provides valuable insights into how well agents can sustain code quality throughout long-term evolution.