Além da Correção de Bugs em Repositório Único: Os Agentes de Código Atuais Conseguem Sobreviver?

Resumo

Os benchmarks atuais para agentes de código avaliam principalmente correções específicas e limitadas a repositórios, negligenciando desafios críticos do mundo real, como o raciocínio entre repositórios, a resolução de problemas especializados por domínio, a migração orientada por dependências e a geração completa de repositórios. Para preencher essa lacuna, apresentamos o BeyondSWE, um benchmark abrangente que amplia as avaliações existentes ao longo de dois eixos - escopo de resolução e escopo de conhecimento - utilizando 500 instâncias reais em quatro contextos distintos. Resultados experimentais revelam uma lacuna significativa de capacidade: mesmo os modelos de fronteira estagnam abaixo de 45% de sucesso, e nenhum modelo individual apresenta desempenho consistente entre os tipos de tarefa. Para investigar sistematicamente o papel do conhecimento externo, desenvolvemos o SearchSWE, um framework que integra busca profunda com habilidades de programação. Nossos experimentos mostram que a augmentação por busca produz ganhos inconsistentes e pode, em alguns casos, degradar o desempenho, destacando a dificuldade de emular fluxos de trabalho semelhantes aos de desenvolvedores que intercalam busca e raciocínio durante tarefas de programação. Este trabalho oferece tanto um benchmark de avaliação realista e desafiador quanto um framework flexível para avançar a pesquisa rumo a agentes de código mais capazes.

English

Current benchmarks for code agents primarily assess narrow, repository-specific fixes, overlooking critical real-world challenges such as cross-repository reasoning, domain-specialized problem solving, dependency-driven migration, and full-repository generation. To address this gap, we introduce BeyondSWE, a comprehensive benchmark that broadens existing evaluations along two axes - resolution scope and knowledge scope - using 500 real-world instances across four distinct settings. Experimental results reveal a significant capability gap: even frontier models plateau below 45% success, and no single model performs consistently across task types. To systematically investigate the role of external knowledge, we develop SearchSWE, a framework that integrates deep search with coding abilities. Our experiments show that search augmentation yields inconsistent gains and can in some cases degrade performance, highlighting the difficulty of emulating developer-like workflows that interleave search and reasoning during coding tasks. This work offers both a realistic, challenging evaluation benchmark and a flexible framework to advance research toward more capable code agents.

Além da Correção de Bugs em Repositório Único: Os Agentes de Código Atuais Conseguem Sobreviver?

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Resumo

Support