ChatPaper.aiChatPaper

EvoClaw: 継続的ソフトウェア進化におけるAIエージェントの評価

EvoClaw: Evaluating AI Agents on Continuous Software Evolution

March 13, 2026
著者: Gangda Deng, Zhaoling Chen, Zhongming Yu, Haoyang Fan, Yuhong Liu, Yuxin Yang, Dhruv Parikh, Rajgopal Kannan, Le Cong, Mengdi Wang, Qian Zhang, Viktor Prasanna, Xiangru Tang, Xingyao Wang
cs.AI

要旨

AIエージェントが長期運用システムとして展開されるにつれ、動的環境内での相互作用を可能にするために、カスタマイズされたソフトウェアを自律的に構築し、継続的に進化させることが不可欠となっている。しかし、既存のベンチマークは、分離された単発的なコーディングタスクに対してエージェントを評価しており、実世界のソフトウェア進化に内在する時間的依存性と技術的負債を無視している。このギャップを埋めるため、我々はDeepCommitを提案する。これは、マイルストーン(意味的にまとまりのある開発目標と定義される)から検証可能なマイルストーンDAGをノイズの多いコミットログから再構築するエージェント型パイプラインである。これらの実行可能なシーケンスは、EvoClawという新たなベンチマークを可能にする。EvoClawは、エージェントがシステムの完全性を維持し、誤差の蓄積を抑制することを要求し、現在のベンチマークではほぼ欠落している長期ソフトウェア進化の側面を評価する。4つのエージェントフレームワークにわたる12の先進モデルを評価した結果、重大な脆弱性が明らかになった:全体的なパフォーマンススコアは、分離タスクでは80%以上であったものが、継続的設定では最大でも38%に大きく低下し、エージェントが長期維持管理と誤差伝播に深刻な困難を抱えていることが暴露された。
English
With AI agents increasingly deployed as long-running systems, it becomes essential to autonomously construct and continuously evolve customized software to enable interaction within dynamic environments. Yet, existing benchmarks evaluate agents on isolated, one-off coding tasks, neglecting the temporal dependencies and technical debt inherent in real-world software evolution. To bridge this gap, we introduce DeepCommit, an agentic pipeline that reconstructs verifiable Milestone DAGs from noisy commit logs, where milestones are defined as semantically cohesive development goals. These executable sequences enable EvoClaw, a novel benchmark that requires agents to sustain system integrity and limit error accumulation, dimensions of long-term software evolution largely missing from current benchmarks. Our evaluation of 12 frontier models across 4 agent frameworks reveals a critical vulnerability: overall performance scores drop significantly from >80% on isolated tasks to at most 38% in continuous settings, exposing agents' profound struggle with long-term maintenance and error propagation.
PDF31March 18, 2026