BeyondSWE: Kunnen Huidige Code-Agents Overleven Voorbij Enkelvoudige Repository Bugfixes?

Samenvatting

Huidige benchmarks voor code-agents richten zich voornamelijk op specifieke, repository-gebonden reparaties, waarbij cruciale real-world uitdagingen over het hoofd worden gezien. Denk hierbij aan redeneren over meerdere repositories, domeinspecifiek probleemoplossen, migratie gestuurd door afhankelijkheden en het genereren van volledige repositories. Om dit gat te dichten, introduceren wij BeyondSWE, een uitgebreide benchmark die de bestaande evaluaties verbredet langs twee assen – resolutiescope en kennisscope – aan de hand van 500 real-world gevallen verdeeld over vier verschillende settings. Experimentele resultaten tonen een significante capaciteitskloof: zelfs de meest geavanceerde modellen stagneren onder een slagingspercentage van 45%, en geen enkel model presteert consistent over alle taaktypen heen. Om de rol van externe kennis systematisch te onderzoeken, ontwikkelden wij SearchSWE, een framework dat diepgaande zoekfunctionaliteit integreert met codeervaardigheden. Onze experimenten tonen aan dat zoekaugmentatie inconsistente verbeteringen oplevert en in sommige gevallen de prestaties zelfs kan verslechteren, wat de moeilijkheid benadrukt van het nabootsen van ontwikkelaarswerkstromen waarbij zoeken en redeneren tijdens codeertaken worden afgewisseld. Dit werk biedt zowel een realistische, uitdagende evaluatiestandaard als een flexibel framework om onderzoek naar capabelere code-agents te bevorderen.

English

Current benchmarks for code agents primarily assess narrow, repository-specific fixes, overlooking critical real-world challenges such as cross-repository reasoning, domain-specialized problem solving, dependency-driven migration, and full-repository generation. To address this gap, we introduce BeyondSWE, a comprehensive benchmark that broadens existing evaluations along two axes - resolution scope and knowledge scope - using 500 real-world instances across four distinct settings. Experimental results reveal a significant capability gap: even frontier models plateau below 45% success, and no single model performs consistently across task types. To systematically investigate the role of external knowledge, we develop SearchSWE, a framework that integrates deep search with coding abilities. Our experiments show that search augmentation yields inconsistent gains and can in some cases degrade performance, highlighting the difficulty of emulating developer-like workflows that interleave search and reasoning during coding tasks. This work offers both a realistic, challenging evaluation benchmark and a flexible framework to advance research toward more capable code agents.

BeyondSWE: Kunnen Huidige Code-Agents Overleven Voorbij Enkelvoudige Repository Bugfixes?

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Samenvatting

Support