Más allá de SWE: ¿Pueden los agentes de código actuales sobrevivir más allá de la corrección de errores en repositorios únicos?

Resumen

Los benchmarks actuales para agentes de código evalúan principalmente correcciones específicas y limitadas a repositorios, pasando por alto desafíos críticos del mundo real como el razonamiento entre repositorios, la resolución de problemas especializados por dominio, la migración impulsada por dependencias y la generación completa de repositorios. Para abordar esta brecha, presentamos BeyondSWE, un benchmark integral que amplía las evaluaciones existentes a lo largo de dos ejes - el alcance de la resolución y el alcance del conocimiento - utilizando 500 casos reales en cuatro entornos distintos. Los resultados experimentales revelan una brecha de capacidad significativa: incluso los modelos más avanzados se estancan por debajo del 45% de éxito, y ningún modelo individual tiene un desempeño consistente entre los tipos de tareas. Para investigar sistemáticamente el rol del conocimiento externo, desarrollamos SearchSWE, un framework que integra búsqueda profunda con capacidades de codificación. Nuestros experimentos muestran que la aumentación con búsqueda produce ganancias inconsistentes y puede en algunos casos degradar el rendimiento, destacando la dificultad de emular flujos de trabajo similares a los de desarrolladores que intercalan búsqueda y razonamiento durante las tareas de codificación. Este trabajo ofrece tanto un benchmark de evaluación realista y desafiante como un framework flexible para avanzar en la investigación hacia agentes de código más capaces.

English

Current benchmarks for code agents primarily assess narrow, repository-specific fixes, overlooking critical real-world challenges such as cross-repository reasoning, domain-specialized problem solving, dependency-driven migration, and full-repository generation. To address this gap, we introduce BeyondSWE, a comprehensive benchmark that broadens existing evaluations along two axes - resolution scope and knowledge scope - using 500 real-world instances across four distinct settings. Experimental results reveal a significant capability gap: even frontier models plateau below 45% success, and no single model performs consistently across task types. To systematically investigate the role of external knowledge, we develop SearchSWE, a framework that integrates deep search with coding abilities. Our experiments show that search augmentation yields inconsistent gains and can in some cases degrade performance, highlighting the difficulty of emulating developer-like workflows that interleave search and reasoning during coding tasks. This work offers both a realistic, challenging evaluation benchmark and a flexible framework to advance research toward more capable code agents.

Más allá de SWE: ¿Pueden los agentes de código actuales sobrevivir más allá de la corrección de errores en repositorios únicos?

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Resumen

Support