BeyondSWE: Gli attuali agenti di codice possono sopravvivere oltre la correzione di bug in repository singoli?

Abstract

Gli attuali benchmark per i code agent valutano principalmente correzioni ristrette e specifiche per repository, tralasciando sfide critiche del mondo reale come il ragionamento cross-repository, la risoluzione di problemi specializzati per dominio, la migrazione guidata dalle dipendenze e la generazione completa di repository. Per colmare questa lacuna, introduciamo BeyondSWE, un benchmark completo che amplia le valutazioni esistenti lungo due assi: lo scopo di risoluzione e lo scopo della conoscenza, utilizzando 500 istanze del mondo reale in quattro contesti distinti. I risultati sperimentali rivelano un significativo divario di capacità: anche i modelli più all'avanguardia si assestano al di sotto del 45% di successo, e nessun singolo modello performa in modo coerente tra i tipi di compito. Per indagare sistematicamente il ruolo della conoscenza esterna, sviluppiamo SearchSWE, un framework che integra la ricerca approfondita con le abilità di codifica. I nostri esperimenti mostrano che l'augmentation tramite ricerca produce guadagni inconsistenti e può in alcuni casi degradare le prestazioni, evidenziando la difficoltà di emulare flussi di lavoro simili a quelli degli sviluppatori che intercalano ricerca e ragionamento durante le attività di codifica. Questo lavoro offre sia un benchmark di valutazione realistico e impegnativo, sia un framework flessibile per far progredire la ricerca verso code agent più capaci.

English

Current benchmarks for code agents primarily assess narrow, repository-specific fixes, overlooking critical real-world challenges such as cross-repository reasoning, domain-specialized problem solving, dependency-driven migration, and full-repository generation. To address this gap, we introduce BeyondSWE, a comprehensive benchmark that broadens existing evaluations along two axes - resolution scope and knowledge scope - using 500 real-world instances across four distinct settings. Experimental results reveal a significant capability gap: even frontier models plateau below 45% success, and no single model performs consistently across task types. To systematically investigate the role of external knowledge, we develop SearchSWE, a framework that integrates deep search with coding abilities. Our experiments show that search augmentation yields inconsistent gains and can in some cases degrade performance, highlighting the difficulty of emulating developer-like workflows that interleave search and reasoning during coding tasks. This work offers both a realistic, challenging evaluation benchmark and a flexible framework to advance research toward more capable code agents.

BeyondSWE: Gli attuali agenti di codice possono sopravvivere oltre la correzione di bug in repository singoli?

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Abstract

Support