EvoClaw: 지속적 소프트웨어 진화에서 AI 에이전트 평가
EvoClaw: Evaluating AI Agents on Continuous Software Evolution
March 13, 2026
저자: Gangda Deng, Zhaoling Chen, Zhongming Yu, Haoyang Fan, Yuhong Liu, Yuxin Yang, Dhruv Parikh, Rajgopal Kannan, Le Cong, Mengdi Wang, Qian Zhang, Viktor Prasanna, Xiangru Tang, Xingyao Wang
cs.AI
초록
AI 에이전트가 장기 실행 시스템으로 점점 더 많이 배포됨에 따라, 동적 환경 내 상호작용을 가능하게 하기 위해 맞춤형 소프트웨어를 자율적으로 구축하고 지속적으로 발전시키는 것이 필수적이 되었습니다. 그러나 기존 벤치마크는 고립된 1회성 코딩 작업에 대해 에이전트를 평가하여, 실제 소프트웨어 진화에 내재된 시간적 의존성과 기술 부채를 간과하고 있습니다. 이러한 격차를 해소하기 위해 우리는 노이즈가 있는 커밋 로그에서 검증 가능한 마일스톤 DAG(방향성 비순환 그래프)를 재구성하는 에이전트 파이프라인인 DeepCommit을 소개합니다. 여기서 마일스톤은 의미론적으로 응집된 개발 목표로 정의됩니다. 이러한 실행 가능한 시퀀스는 EvoClaw라는 새로운 벤치마크를 가능하게 하는데, 이 벤치마크는 에이전트가 시스템 무결성을 유지하고 오류 축적을 제한하도록 요구하며, 이는 기존 벤치마크에서 크게 간과되었던 장기 소프트웨어 진화의 차원입니다. 4가지 에이전트 프레임워크에서 12개의 최첨단 모델을 평가한 결과, 중요한 취약점이 드러났습니다: 전체 성능 점수가 고립된 작업에서는 80% 이상이었던 것이 연속적인 설정에서는 최대 38%로 크게 하락하여, 에이전트들이 장기적 유지보수와 오류 전파에 극심한 어려움을 겪고 있음을 보여줍니다.
English
With AI agents increasingly deployed as long-running systems, it becomes essential to autonomously construct and continuously evolve customized software to enable interaction within dynamic environments. Yet, existing benchmarks evaluate agents on isolated, one-off coding tasks, neglecting the temporal dependencies and technical debt inherent in real-world software evolution. To bridge this gap, we introduce DeepCommit, an agentic pipeline that reconstructs verifiable Milestone DAGs from noisy commit logs, where milestones are defined as semantically cohesive development goals. These executable sequences enable EvoClaw, a novel benchmark that requires agents to sustain system integrity and limit error accumulation, dimensions of long-term software evolution largely missing from current benchmarks. Our evaluation of 12 frontier models across 4 agent frameworks reveals a critical vulnerability: overall performance scores drop significantly from >80% on isolated tasks to at most 38% in continuous settings, exposing agents' profound struggle with long-term maintenance and error propagation.