Claw-Eval: Op weg naar een betrouwbare evaluatie van autonome agents
Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents
April 7, 2026
Auteurs: Bowen Ye, Rang Li, Qibin Yang, Yuanxin Liu, Linli Yao, Hanglong Lv, Zhihui Xie, Chenxin An, Lei Li, Lingpeng Kong, Qi Liu, Zhifang Sui, Tong Yang
cs.AI
Samenvatting
Grootschalige taalmodellen worden steeds vaker ingezet als autonome agents die meerstaps werkstromen uitvoeren in reële software-omgevingen. Bestaande benchmarks voor agents kampen echter met drie kritieke beperkingen: (1) traject-onduidelijke beoordeling die alleen de eindresultaten controleert, (2) ondermaats gespecificeerde evaluatie van veiligheid en robuustheid, en (3) beperkte modaliteitsdekking en interactieparadigma's. Wij introduceren Claw-Eval, een end-to-end evaluatiesuite die alle drie deze hiaten aanpakt. Deze omvat 300 door mensen geverifieerde taken, verdeeld over 9 categorieën in drie groepen (algemene service-orchestratie, multimodale perceptie en generatie, en multi-turn professionele dialoog). Elke agentactie wordt vastgelegd via drie onafhankelijke bewijskanalen (uitvoeringstrajecten, auditlogboeken en omgevingsmomentopnamen), wat trajectbewuste beoordeling mogelijk maakt op basis van 2.159 gedetailleerde rubricapunten. Het scoringsprotocol evalueert Voltooiing, Veiligheid en Robuustheid, en rapporteert Gemiddelde Score, Pass@k en Pass^k over drie pogingen om werkelijke capaciteit te onderscheiden van geluksresultaten. Experimenten met 14 frontier-modellen tonen aan dat: (1) traject-onduidelijke evaluatie systematisch onbetrouwbaar is en 44% van de veiligheidschendingen en 13% van de robuustheidsfouten mist die onze hybride pijplijn detecteert; (2) gecontroleerde foutinjectie vooral de consistentie aantast in plaats van de piekcapaciteit, met een daling van Pass^3 tot 24% terwijl Pass@3 stabiel blijft; (3) multimodale prestaties sterk variëren, waarbij de meeste modellen slechter presteren op video dan op documenten of afbeeldingen, en geen enkel model dominant is across alle modaliteiten. Naast benchmarking belicht Claw-Eval actierichte richtingen voor agentontwikkeling en werpt het licht op wat nodig is om agents te bouwen die niet alleen capabel maar ook betrouwbaar inzetbaar zijn.
English
Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.