SWE-EVO: Avaliação de Agentes de Codificação em Cenários de Evolução de Software de Longo Horizonte

Resumo

Os benchmarks existentes para agentes de IA de codificação concentram-se em tarefas isoladas e de problema único, como corrigir um bug ou implementar uma pequena funcionalidade. No entanto, a engenharia de software do mundo real é fundamentalmente uma atividade de longo prazo: os desenvolvedores devem interpretar requisitos de alto nível, planejar alterações coordenadas em muitos arquivos e evoluir bases de código ao longo de múltiplas iterações, preservando a funcionalidade existente. Apresentamos o SWE-EVO, um benchmark que avalia os agentes neste desafio de evolução de software de longo prazo. Construído a partir de notas de versão e históricos de versão de sete projetos Python de código aberto maduros, o SWE-EVO compreende 48 tarefas de evolução que exigem que os agentes implementem modificações de múltiplas etapas abrangendo uma média de 21 arquivos, validadas por conjuntos de testes abrangentes com uma média de 874 testes por instância. Experimentos com modelos state-of-the-art revelam uma lacuna de capacidade gritante: mesmo o GPT-4 com OpenHands atinge apenas uma taxa de resolução de 21% no SWE-EVO, em comparação com 65% no SWE-Bench Verified (de problema único). Isso demonstra que os agentes atuais lutam com o raciocínio sustentado e multiarquivo. Também propomos a Taxa de Correção (Fix Rate), uma métrica granular que captura o progresso parcial na resolução dessas tarefas complexas e de longo prazo.

English

Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.

SWE-EVO: Avaliação de Agentes de Codificação em Cenários de Evolução de Software de Longo Horizonte

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Resumo

Support