SWE-Explore : Évaluation comparative de la manière dont les agents de codage explorent les dépôts

Résumé

Les benchmarks de codage au niveau du dépôt, tels que SWE-bench, ont entraîné une progression rapide des capacités des agents de codage. Cependant, ils traitent généralement les tâches de codage comme un problème de prédiction binaire holistique (par exemple, résolu ou non résolu), négligeant les capacités fines des agents telles que la compréhension du dépôt, la récupération du contexte, la localisation du code et le diagnostic de bogues. Dans cet article, nous présentons SWE-Explore, un benchmark qui isole l'évaluation de l'exploration de dépôt, une capacité critique des agents de codage. Étant donné un dépôt et un problème, SWE-Explore demande à un explorateur de retourner une liste classée de régions de code pertinentes sous un budget de lignes fixe. SWE-Explore couvre 848 problèmes répartis sur 10 langages de programmation et 203 dépôts open-source. Pour chaque instance, nous dérivons une vérité de terrain au niveau des lignes à partir de trajectoires d'agents indépendants ayant résolu avec succès le même problème, en distillant les régions de code spécifiques que leurs chemins de solution ont effectivement consultées. Nous évaluons l'exploration selon les dimensions de couverture, de classement et d'efficacité contextuelle, montrant que ces métriques sont fortement corrélées au comportement de réparation ultérieur. À travers un large éventail de méthodes de récupération, d'agents de codage généraux et de localisateurs spécialisés, nous constatons que les explorateurs agentiques forment un palier nettement supérieur à la récupération classique. Bien que la localisation au niveau des fichiers soit déjà performante pour les méthodes modernes, la couverture au niveau des lignes et le classement efficace restent les axes clés qui différencient les explorateurs de pointe.

English

Repository-level coding benchmarks such as SWE-bench have driven a rapid surge in the capabilities of coding agents. Yet they usually treat coding tasks as a holistic, binary prediction problem (e.g., resolved or unresolved), neglecting fine-grained agent capabilities such as repository understanding, context retrieval, code localization, and bug diagnosis. In this paper, we introduce SWE-Explore, a benchmark that isolates the evaluation of repository exploration, a critical capability of coding agents. Given a repository and an issue, SWE-Explore asks an explorer to return a ranked list of relevant code regions under a fixed line budget. SWE-Explore covers 848 issues across 10 programming languages and 203 open-source repositories. For each instance, we derive line-level ground truth from independent agent trajectories that successfully solved the same issue, distilling the specific code regions their solution paths actually consulted. We evaluate exploration along coverage, ranking, and context-efficiency dimensions, showing that these metrics strongly track downstream repair behavior. Across a broad set of retrieval methods, general coding agents, and specialized localizers, we find that agentic explorers form a clear tier above classical retrieval. While file-level localization is already strong for modern methods, line-level coverage and efficient ranking remain the key axes differentiating state-of-the-art explorers.