BeyondSWE : Les agents de code actuels peuvent-ils survivre au-delà de la correction de bogues dans un seul dépôt ?

Résumé

Les benchmarks actuels pour les agents de code évaluent principalement des correctifs étroits et spécifiques à un dépôt, négligeant des défis critiques du monde réel tels que le raisonnement inter-dépôts, la résolution de problèmes spécialisés par domaine, la migration pilotée par les dépendances et la génération complète de dépôts. Pour combler cette lacune, nous présentons BeyondSWE, un benchmark complet qui élargit les évaluations existantes selon deux axes - la portée de résolution et la portée des connaissances - en utilisant 500 instances réelles réparties dans quatre contextes distincts. Les résultats expérimentaux révèlent un écart significatif de capacités : même les modèles les plus avancés plafonnent en dessous de 45% de succès, et aucun modèle unique ne performe de manière constante across les types de tâches. Pour étudier systématiquement le rôle des connaissances externes, nous développons SearchSWE, un framework qui intègre la recherche approfondie avec les capacités de codage. Nos expériences montrent que l'augmentation par recherche produit des gains inconstants et peut dans certains cas dégrader les performances, soulignant la difficulté à reproduire des workflows similaires à ceux des développeurs qui entrelacent recherche et raisonnement durant les tâches de programmation. Ce travail offre à la fois un benchmark d'évaluation réaliste et exigeant, et un framework flexible pour faire progresser la recherche vers des agents de code plus performants.

English

Current benchmarks for code agents primarily assess narrow, repository-specific fixes, overlooking critical real-world challenges such as cross-repository reasoning, domain-specialized problem solving, dependency-driven migration, and full-repository generation. To address this gap, we introduce BeyondSWE, a comprehensive benchmark that broadens existing evaluations along two axes - resolution scope and knowledge scope - using 500 real-world instances across four distinct settings. Experimental results reveal a significant capability gap: even frontier models plateau below 45% success, and no single model performs consistently across task types. To systematically investigate the role of external knowledge, we develop SearchSWE, a framework that integrates deep search with coding abilities. Our experiments show that search augmentation yields inconsistent gains and can in some cases degrade performance, highlighting the difficulty of emulating developer-like workflows that interleave search and reasoning during coding tasks. This work offers both a realistic, challenging evaluation benchmark and a flexible framework to advance research toward more capable code agents.

BeyondSWE : Les agents de code actuels peuvent-ils survivre au-delà de la correction de bogues dans un seul dépôt ?

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Résumé

Support