EvoClaw: Evaluatie van AI-agenten voor continue software-evolutie
EvoClaw: Evaluating AI Agents on Continuous Software Evolution
March 13, 2026
Auteurs: Gangda Deng, Zhaoling Chen, Zhongming Yu, Haoyang Fan, Yuhong Liu, Yuxin Yang, Dhruv Parikh, Rajgopal Kannan, Le Cong, Mengdi Wang, Qian Zhang, Viktor Prasanna, Xiangru Tang, Xingyao Wang
cs.AI
Samenvatting
Met de toenemende inzet van AI-agenten als langlopende systemen wordt het essentieel om autonoom software op maat te construeren en continu te laten evolueren voor interactie in dynamische omgevingen. Toch evalueren bestaande benchmarks agenten op geïsoleerde, eenmalige programmeertaken, waarbij de temporele afhankelijkheden en technische schuld die inherent zijn aan echte software-evolutie worden verwaarloosd. Om deze kloof te overbruggen, introduceren we DeepCommit: een agent-gebaseerde pijplijn die verifieerbare mijlpaal-DAG’s reconstrueert uit ruize commit-logs, waarbij mijlpalen worden gedefinieerd als semantisch samenhangende ontwikkelingsdoelen. Deze uitvoerbare sequenties maken EvoClaw mogelijk, een nieuwe benchmark die van agenten vereist dat ze de systeemintegriteit handhaven en foutaccumulatie beperken – dimensies van langetermijnsoftware-evolutie die grotendeels ontbreken in huidige benchmarks. Onze evaluatie van 12 frontier-modellen verspreid over 4 agent-frameworks onthult een kritieke kwetsbaarheid: de algehele prestatiescore daalt significant van >80% op geïsoleerde taken tot maximaal 38% in continue settings, wat de diepe worsteling van agenten met langdurig onderhoud en foutpropagatie blootlegt.
English
With AI agents increasingly deployed as long-running systems, it becomes essential to autonomously construct and continuously evolve customized software to enable interaction within dynamic environments. Yet, existing benchmarks evaluate agents on isolated, one-off coding tasks, neglecting the temporal dependencies and technical debt inherent in real-world software evolution. To bridge this gap, we introduce DeepCommit, an agentic pipeline that reconstructs verifiable Milestone DAGs from noisy commit logs, where milestones are defined as semantically cohesive development goals. These executable sequences enable EvoClaw, a novel benchmark that requires agents to sustain system integrity and limit error accumulation, dimensions of long-term software evolution largely missing from current benchmarks. Our evaluation of 12 frontier models across 4 agent frameworks reveals a critical vulnerability: overall performance scores drop significantly from >80% on isolated tasks to at most 38% in continuous settings, exposing agents' profound struggle with long-term maintenance and error propagation.