EvoClaw: Evaluatie van AI-agenten voor continue software-evolutie

Samenvatting

Met de toenemende inzet van AI-agenten als langlopende systemen wordt het essentieel om autonoom software op maat te construeren en continu te laten evolueren voor interactie in dynamische omgevingen. Toch evalueren bestaande benchmarks agenten op geïsoleerde, eenmalige programmeertaken, waarbij de temporele afhankelijkheden en technische schuld die inherent zijn aan echte software-evolutie worden verwaarloosd. Om deze kloof te overbruggen, introduceren we DeepCommit: een agent-gebaseerde pijplijn die verifieerbare mijlpaal-DAG’s reconstrueert uit ruize commit-logs, waarbij mijlpalen worden gedefinieerd als semantisch samenhangende ontwikkelingsdoelen. Deze uitvoerbare sequenties maken EvoClaw mogelijk, een nieuwe benchmark die van agenten vereist dat ze de systeemintegriteit handhaven en foutaccumulatie beperken – dimensies van langetermijnsoftware-evolutie die grotendeels ontbreken in huidige benchmarks. Onze evaluatie van 12 frontier-modellen verspreid over 4 agent-frameworks onthult een kritieke kwetsbaarheid: de algehele prestatiescore daalt significant van >80% op geïsoleerde taken tot maximaal 38% in continue settings, wat de diepe worsteling van agenten met langdurig onderhoud en foutpropagatie blootlegt.

English

With AI agents increasingly deployed as long-running systems, it becomes essential to autonomously construct and continuously evolve customized software to enable interaction within dynamic environments. Yet, existing benchmarks evaluate agents on isolated, one-off coding tasks, neglecting the temporal dependencies and technical debt inherent in real-world software evolution. To bridge this gap, we introduce DeepCommit, an agentic pipeline that reconstructs verifiable Milestone DAGs from noisy commit logs, where milestones are defined as semantically cohesive development goals. These executable sequences enable EvoClaw, a novel benchmark that requires agents to sustain system integrity and limit error accumulation, dimensions of long-term software evolution largely missing from current benchmarks. Our evaluation of 12 frontier models across 4 agent frameworks reveals a critical vulnerability: overall performance scores drop significantly from >80% on isolated tasks to at most 38% in continuous settings, exposing agents' profound struggle with long-term maintenance and error propagation.

EvoClaw: Evaluatie van AI-agenten voor continue software-evolutie

EvoClaw: Evaluating AI Agents on Continuous Software Evolution

Samenvatting

Support