SWE-EVO: Тестирование кодирующих агентов в сценариях долгосрочной эволюции программного обеспечения

Аннотация

Существующие бенчмарки для ИИ-агентов программирования сосредоточены на изолированных, одношаговых задачах, таких как исправление ошибки или реализация небольшой функции. Однако реальная разработка программного обеспечения по своей сути является долгосрочным процессом: разработчики должны интерпретировать высокоуровневые требования, планировать согласованные изменения во множестве файлов и развивать кодобазы в течение множества итераций, сохраняя при этом существующую функциональность. Мы представляем SWE-EVO — бенчмарк, который оценивает агентов именно в рамках этой долгосрочной задачи эволюции программного обеспечения. Построенный на основе примечаний к выпускам и истории версий семи зрелых проектов на Python, Tool включает 48 задач по эволюции, требующих от агентов реализации многошаговых изменений, затрагивающих в среднем 21 файл, с последующей проверкой с помощью комплексных наборов тестов, в среднем по 874 теста на экземпляр. Эксперименты с современными моделями выявляют разительный разрыв в возможностях: даже GPT-5 с OpenHands достигает уровня успешного решения лишь в 21% случаев на Tool, по сравнению с 65% на одношаговом SWE-Bench Verified. Это демонстрирует, что текущие агенты испытывают трудности с продолжительным, межфайловым логическим выводом. Мы также предлагаем метрику Fix Rate (Уровень исправления), которая фиксирует частичный прогресс в решении этих сложных, долгосрочных задач.

English

Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.

SWE-EVO: Тестирование кодирующих агентов в сценариях долгосрочной эволюции программного обеспечения

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Аннотация

Support