SWE-EVO: 長期的なソフトウェア進化シナリオにおけるコーディングエージェントのベンチマーキング
SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios
December 20, 2025
著者: Minh V. T. Thai, Tue Le, Dung Nguyen Manh, Huy Phan Nhat, Nghi D. Q. Bui
cs.AI
要旨
既存のAIコーディングエージェントのベンチマークは、バグ修正や小規模な機能実装といった単一課題に焦点を当てがちである。しかし、現実のソフトウェアエンジニアリングは本質的に長期的な取り組みを要する。開発者は高水準な要求を解釈し、多数のファイルにわたる調整された変更を計画し、既存の機能を維持しながらコードベースを反復的に進化させなければならない。本研究では、この長期的なソフトウェア進化の課題に対してエージェントを評価するベンチマーク「SWE-EVO」を提案する。本ベンチマークは、7つの成熟したオープンソースPythonプロジェクトのリリースノートとバージョン履歴から構築され、平均21ファイルにまたがる多段階の修正を実装することをエージェントに求める48の進化タスクで構成される。各インスタンスは平均874テストからなる包括的なテストスイートで検証される。最新モデルを用いた実験では、顕著な能力格差が明らかになった。例えばOpenHandsを組み合わせたGPT-5であっても、SWE-EVOの解決率は21%に留まり、単一課題のSWE-Bench Verifiedにおける65%と比較して大幅に低い。これは、現在のエージェントが持続的かつ複数ファイルにわたる推論に苦戦していることを示唆する。さらに我々は、これらの複雑で長期的なタスク解決に向けた部分的な進捗を捕捉する詳細な評価指標「Fix Rate」を提案する。
English
Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.