BeyondSWE: Способны ли современные программные агенты выйти за рамки исправления ошибок в одном репозитории?

Аннотация

Современные бенчмарки для код-агентов в основном оценивают узкие, специфичные для репозитория исправления, упуская из виду ключевые проблемы реального мира, такие как кросс-репозиторный анализ, решение специализированных предметных задач, миграция, управляемая зависимостями, и генерация полных репозиториев. Для устранения этого пробела мы представляем BeyondSWE — комплексный бенчмарк, расширяющий существующие оценки по двум осям: область разрешения и область знаний, используя 500 реальных примеров в четырёх различных сценариях. Результаты экспериментов выявляют значительный разрыв в возможностях: даже передовые модели выходят на плато ниже 45% успеха, и ни одна модель не демонстрирует стабильной производительности across типами задач. Для систематического исследования роли внешних знаний мы разрабатываем SearchSWE — фреймворк, интегрирующий глубокий поиск с кодированием. Наши эксперименты показывают, что расширение возможностей поиском даёт нестабильный прирост и в некоторых случаях может ухудшить производительность, что подчёркивает сложность воспроизведения рабочих процессов, подобных разработческим, где поиск и логические рассуждения чередуются в ходе задач по программированию. Данная работа предлагает как реалистичный, сложный оценочный бенчмарк, так и гибкий фреймворк для продвижения исследований в направлении создания более совершенных код-агентов.

English

Current benchmarks for code agents primarily assess narrow, repository-specific fixes, overlooking critical real-world challenges such as cross-repository reasoning, domain-specialized problem solving, dependency-driven migration, and full-repository generation. To address this gap, we introduce BeyondSWE, a comprehensive benchmark that broadens existing evaluations along two axes - resolution scope and knowledge scope - using 500 real-world instances across four distinct settings. Experimental results reveal a significant capability gap: even frontier models plateau below 45% success, and no single model performs consistently across task types. To systematically investigate the role of external knowledge, we develop SearchSWE, a framework that integrates deep search with coding abilities. Our experiments show that search augmentation yields inconsistent gains and can in some cases degrade performance, highlighting the difficulty of emulating developer-like workflows that interleave search and reasoning during coding tasks. This work offers both a realistic, challenging evaluation benchmark and a flexible framework to advance research toward more capable code agents.

BeyondSWE: Способны ли современные программные агенты выйти за рамки исправления ошибок в одном репозитории?

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Аннотация

Support