SWE-Explore: Benchmarking de Como Agentes de Codificação Exploram Repositórios

Resumo

Benchmarks de codificação em nível de repositório, como o SWE-bench, impulsionaram um rápido aumento nas capacidades dos agentes de codificação. No entanto, eles geralmente tratam as tarefas de codificação como um problema holístico de predição binária (por exemplo, resolvido ou não resolvido), negligenciando capacidades mais granulares dos agentes, como entendimento do repositório, recuperação de contexto, localização de código e diagnóstico de bugs. Neste artigo, apresentamos o SWE-Explore, um benchmark que isola a avaliação da exploração de repositórios, uma capacidade crítica dos agentes de codificação. Dado um repositório e uma issue, o SWE-Explore solicita que um explorador retorne uma lista ranqueada de regiões de código relevantes sob um orçamento fixo de linhas. O SWE-Explore abrange 848 issues em 10 linguagens de programação e 203 repositórios de código aberto. Para cada instância, derivamos a verdade de base em nível de linha a partir de trajetórias independentes de agentes que resolveram com sucesso a mesma issue, destilando as regiões de código específicas que seus caminhos de solução realmente consultaram. Avaliamos a exploração nas dimensões de cobertura, ranqueamento e eficiência de contexto, mostrando que essas métricas se correlacionam fortemente com o comportamento de reparo subsequente. Em um amplo conjunto de métodos de recuperação, agentes de codificação gerais e localizadores especializados, descobrimos que exploradores agentivos formam um nível claramente superior à recuperação clássica. Embora a localização em nível de arquivo já seja forte para métodos modernos, a cobertura em nível de linha e o ranqueamento eficiente permanecem como os principais eixos que diferenciam os exploradores de última geração.

English

Repository-level coding benchmarks such as SWE-bench have driven a rapid surge in the capabilities of coding agents. Yet they usually treat coding tasks as a holistic, binary prediction problem (e.g., resolved or unresolved), neglecting fine-grained agent capabilities such as repository understanding, context retrieval, code localization, and bug diagnosis. In this paper, we introduce SWE-Explore, a benchmark that isolates the evaluation of repository exploration, a critical capability of coding agents. Given a repository and an issue, SWE-Explore asks an explorer to return a ranked list of relevant code regions under a fixed line budget. SWE-Explore covers 848 issues across 10 programming languages and 203 open-source repositories. For each instance, we derive line-level ground truth from independent agent trajectories that successfully solved the same issue, distilling the specific code regions their solution paths actually consulted. We evaluate exploration along coverage, ranking, and context-efficiency dimensions, showing that these metrics strongly track downstream repair behavior. Across a broad set of retrieval methods, general coding agents, and specialized localizers, we find that agentic explorers form a clear tier above classical retrieval. While file-level localization is already strong for modern methods, line-level coverage and efficient ranking remain the key axes differentiating state-of-the-art explorers.