BeyondSWE: Können aktuelle Code-Agenten mehr als Fehlerbehebungen in einzelnen Repositories bewältigen?

Zusammenfassung

Aktuelle Benchmarks für Code-Agenten bewerten hauptsächlich eng gefasste, repositoriespezifische Korrekturen und übersehen dabei kritische Herausforderungen der realen Welt, wie repositoryübergreifendes Denken, domänenspezifische Problemlösung, abhängigkeitsgetriebene Migration und die Generierung vollständiger Repositories. Um diese Lücke zu schließen, führen wir BeyondSWE ein, einen umfassenden Benchmark, der bestehende Evaluationen entlang zweier Achsen erweitert – Auflösungsbereich und Wissensbereich – unter Verwendung von 500 realen Instanzen aus vier verschiedenen Settings. Experimentelle Ergebnisse zeigen eine erhebliche Fähigkeitslücke: Selbst Spitzenmodelle stagnieren unterhalb von 45 % Erfolgsquote, und kein einziges Modell schneidet konsistent über alle Aufgabentypen hinweg gut ab. Um die Rolle von externem Wissen systematisch zu untersuchen, entwickeln wir SearchSWE, ein Framework, das tiefgehende Suche mit Programmierfähigkeiten integriert. Unsere Experimente zeigen, dass suchbasierte Erweiterung inkonsistente Verbesserungen bringt und in einigen Fällen die Leistung sogar verschlechtern kann, was die Schwierigkeit unterstreicht, entwicklerähnliche Workflows nachzubilden, die Suche und logisches Denken während Programmieraufgaben verzahnen. Diese Arbeit bietet sowohl einen realistischen, anspruchsvollen Evaluationsmaßstab als auch ein flexibles Framework, um die Forschung hin zu leistungsfähigeren Code-Agenten voranzutreiben.

English

Current benchmarks for code agents primarily assess narrow, repository-specific fixes, overlooking critical real-world challenges such as cross-repository reasoning, domain-specialized problem solving, dependency-driven migration, and full-repository generation. To address this gap, we introduce BeyondSWE, a comprehensive benchmark that broadens existing evaluations along two axes - resolution scope and knowledge scope - using 500 real-world instances across four distinct settings. Experimental results reveal a significant capability gap: even frontier models plateau below 45% success, and no single model performs consistently across task types. To systematically investigate the role of external knowledge, we develop SearchSWE, a framework that integrates deep search with coding abilities. Our experiments show that search augmentation yields inconsistent gains and can in some cases degrade performance, highlighting the difficulty of emulating developer-like workflows that interleave search and reasoning during coding tasks. This work offers both a realistic, challenging evaluation benchmark and a flexible framework to advance research toward more capable code agents.

BeyondSWE: Können aktuelle Code-Agenten mehr als Fehlerbehebungen in einzelnen Repositories bewältigen?

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Zusammenfassung

Support