ChatPaper.aiChatPaper

SWE-EVO: 장기적 소프트웨어 진화 시나리오에서 코딩 에이전트 성능 평가

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

December 20, 2025
저자: Minh V. T. Thai, Tue Le, Dung Nguyen Manh, Huy Phan Nhat, Nghi D. Q. Bui
cs.AI

초록

기존 AI 코딩 에이전트 벤치마크는 버그 수정이나 작은 기능 구현과 같은 단일 문제에 집중한 과제들로 구성되어 있습니다. 그러나 실제 소프트웨어 엔지니어링은 근본적으로 장기적인 과정입니다: 개발자는 높은 수준의 요구 사항을 해석하고, 여러 파일에 걸쳐 조율된 변경 사항을 계획하며, 기존 기능을 보존한 채 여러 차례에 걸쳐 코드베이스를 발전시켜야 합니다. 본 논문에서는 이러한 장기적인 소프트웨어 진화 과제에 대해 에이전트를 평가하는 벤치마크인 SWE-EVO를 소개합니다. 7개의 성숙한 오픈소스 Python 프로젝트의 릴리스 노트와 버전 기록을 바탕으로 구성된 SWE-EVO는 평균 21개의 파일에 걸친 다단계 수정 사항 구현을 요구하는 48개의 진화 과제로 이루어져 있으며, 인스턴스당 평균 874개의 테스트로 구성된 포괄적인 테스트 스위트를 통해 검증됩니다. 최첨단 모델을 이용한 실험 결과는 현저한 능력 격차를 보여줍니다: OpenHands를 결합한 GPT-5 조차도 SWE-EVO에서 해결률이 21%에 불과한 반면, 단일 문제 중심 벤치마크인 SWE-Bench Verified에서는 65%의 해결률을 기록했습니다. 이는 현재의 에이전트들이 지속적이고 다중 파일에 걸친 추론에 어려움을 겪고 있음을 보여줍니다. 또한 본 논문에서는 이러한 복잡한 장기 과제 해결을 위한 부분적 진전을 포착하는 세분화된 지표인 Fix Rate를 제안합니다.
English
Existing benchmarks for AI coding agents focus on isolated, single-issue tasks such as fixing a bug or implementing a small feature. However, real-world software engineering is fundamentally a long-horizon endeavor: developers must interpret high-level requirements, plan coordinated changes across many files, and evolve codebases over multiple iterations while preserving existing functionality. We introduce SWE-EVO, a benchmark that evaluates agents on this long-horizon software evolution challenge. Constructed from release notes and version histories of seven mature open-source Python projects, Tool comprises 48 evolution tasks that require agents to implement multi-step modifications spanning an average of 21 files, validated against comprehensive test suites averaging 874 tests per instance. Experiments with state-of-the-art models reveal a striking capability gap: even GPT-5 with OpenHands achieves only a 21 percent resolution rate on Tool, compared to 65 percent on the single-issue SWE-Bench Verified. This demonstrates that current agents struggle with sustained, multi-file reasoning. We also propose Fix Rate, a fine-grained metric that captures partial progress toward solving these complex, long-horizon tasks.
PDF31December 26, 2025