Claw-Eval-Live: Een Live-Agent Benchmark voor Evolving Real-World Workflows
Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
April 30, 2026
Auteurs: Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li, Lei Li, Benyou Wang, Yixuan Yuan
cs.AI
Samenvatting
LLM-agenten worden geacht end-to-end werkzaamheden te voltooien across softwaretools, bedrijfsservices en lokale werkruimtes. Toch bevriezen veel agentbenchmarks een geselecteerde set taken bij de release en beoordelen ze voornamelijk het eindantwoord, wat het moeilijk maakt om agenten te evalueren tegen evoluerende workflowbehoeften of om te verifiëren of een taak daadwerkelijk werd uitgevoerd. Wij introduceren Claw-Eval-Live, een live benchmark voor workflowagenten die een vernieuwbare signaallaag, die tussen releases wordt bijgewerkt op basis van publieke workflowvraagsignalen, scheidt van een reproduceerbare, getimestampde releasesnapshot. Elke release wordt samengesteld uit publieke workflowvraagsignalen, waarbij de ClawHub Top-500 vaardigheden die in de huidige release worden gebruikt, worden gematerialiseerd als gecontroleerde taken met vaste fixtures, services, werkruimtes en beoordelaars. Voor de beoordeling registreert Claw-Eval-Live uitvoeringstraces, auditlogs, servicestatus en artefacten in de werkruimte na uitvoering, waarbij deterministische controles worden gebruikt wanneer bewijs voldoende is en gestructureerde LLM-beoordeling alleen voor semantische dimensies. De release bevat 105 taken die zich uitstrekken over gecontroleerde bedrijfsservices en lokaal werkruimteherstel, en evalueert 13 frontier-modellen onder een gedeelde, publieke slaagregel. Experimenten tonen aan dat betrouwbare workflowautomatisering nog lang niet is opgelost: het beste model slaagt voor slechts 66,7% van de taken en geen enkel model bereikt 70%. Fouten zijn gestructureerd per taakfamilie en uitvoeringsoppervlak, waarbij HR-, management- en multi-systeem bedrijfsworkflows hardnekkige knelpunten vormen, en lokaal werkruimteherstel relatief eenvoudiger maar onverzadigd is. Enkel de leaderboardpositie volstaat niet, omdat modellen met vergelijkbare slaagpercentages kunnen verschillen in algehele voltooiing, en taakniveau-discriminatie concentreert zich in een middelste band van taken. Claw-Eval-Live suggereert dat evaluatie van workflowagenten dubbel moet worden verankerd: in verse externe vraag en in verifieerbare agentactie.
English
LLM agents are expected to complete end-to-end units of work across software tools, business services, and local workspaces. Yet many agent benchmarks freeze a curated task set at release time and grade mainly the final response, making it difficult to evaluate agents against evolving workflow demand or verify whether a task was executed. We introduce Claw-Eval-Live, a live benchmark for workflow agents that separates a refreshable signal layer, updated across releases from public workflow-demand signals, from a reproducible, time-stamped release snapshot. Each release is constructed from public workflow-demand signals, with ClawHub Top-500 skills used in the current release, and materialized as controlled tasks with fixed fixtures, services, workspaces, and graders. For grading, Claw-Eval-Live records execution traces, audit logs, service state, and post-run workspace artifacts, using deterministic checks when evidence is sufficient and structured LLM judging only for semantic dimensions. The release contains 105 tasks spanning controlled business services and local workspace repair, and evaluates 13 frontier models under a shared public pass rule. Experiments reveal that reliable workflow automation remains far from solved: the leading model passes only 66.7% of tasks and no model reaches 70%. Failures are structured by task family and execution surface, with HR, management, and multi-system business workflows as persistent bottlenecks and local workspace repair comparatively easier but unsaturated. Leaderboard rank alone is insufficient because models with similar pass rates can diverge in overall completion, and task-level discrimination concentrates in a middle band of tasks. Claw-Eval-Live suggests that workflow-agent evaluation should be grounded twice, in fresh external demand and in verifiable agent action.