Claw-Eval-Live: Ein Live-Agenten-Benchmark für sich entwickelnde Echtzeit-Workflows
Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
April 30, 2026
Autoren: Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li, Lei Li, Benyou Wang, Yixuan Yuan
cs.AI
Zusammenfassung
LLM-Agents sollen end-to-end Arbeitseinheiten über Software-Tools, Geschäftsdienste und lokale Arbeitsbereiche hinweg abschließen. Viele Agenten-Benchmarks frieren jedoch einen kuratierten Aufgabensatz zum Veröffentlichungszeitpunkt ein und bewerten hauptsächlich die Endantwort, was es schwierig macht, Agenten an sich entwickelnden Workflow-Anforderungen zu messen oder zu überprüfen, ob eine Aufgabe ausgeführt wurde. Wir stellen Claw-Eval-Live vor, einen Live-Benchmark für Workflow-Agents, der eine aktualisierbare Signal-Ebene, die releasesübergreifend mit öffentlichen Workflow-Anforderungssignalen aktualisiert wird, von einer reproduzierbaren, zeitgestempelten Release-Momentaufnahme trennt. Jedes Release wird aus öffentlichen Workflow-Anforderungssignalen konstruiert, wobei die ClawHub Top-500-Fähigkeiten der aktuellen Version verwendet werden, und als kontrollierte Aufgaben mit festen Fixtures, Diensten, Arbeitsbereichen und Bewertungskomponenten materialisiert. Für die Bewertung zeichnet Claw-Eval-Live Ausführungstraces, Prüfprotokolle, Dienstzustände und Arbeitsbereichsartefakte nach der Ausführung auf, verwendet deterministische Prüfungen bei ausreichender Beweislage und setzt strukturiertes LLM-Judging nur für semantische Dimensionen ein. Das Release umfasst 105 Aufgaben, die kontrollierte Geschäftsdienste und die Reparatur lokaler Arbeitsbereiche abdecken, und evaluiert 13 Frontier-Modelle unter einer gemeinsamen öffentlichen Bestehensregel. Experimente zeigen, dass zuverlässige Workflow-Automatisierung noch lange nicht gelöst ist: Das führende Modell besteht nur 66,7 % der Aufgaben und kein Modell erreicht 70 %. Die Fehler sind nach Aufgabenfamilie und Ausführungsoberfläche strukturiert, wobei HR-, Management- und Multi-System-Geschäftsworkflows anhaltende Engpässe darstellen und die Reparatur lokaler Arbeitsbereiche vergleichsweise einfacher, aber ungesättigt ist. Der Leaderboard-Rang allein ist unzureichend, da Modelle mit ähnlichen Bestehensquoten in der Gesamtvollständigkeit divergieren können und die Aufgabenunterscheidung sich auf ein mittleres Aufgabensegment konzentriert. Claw-Eval-Live legt nahe, dass die Evaluation von Workflow-Agents zweifach fundiert sein sollte: in frischer externer Nachfrage und in überprüfbaren Agentenaktionen.
English
LLM agents are expected to complete end-to-end units of work across software tools, business services, and local workspaces. Yet many agent benchmarks freeze a curated task set at release time and grade mainly the final response, making it difficult to evaluate agents against evolving workflow demand or verify whether a task was executed. We introduce Claw-Eval-Live, a live benchmark for workflow agents that separates a refreshable signal layer, updated across releases from public workflow-demand signals, from a reproducible, time-stamped release snapshot. Each release is constructed from public workflow-demand signals, with ClawHub Top-500 skills used in the current release, and materialized as controlled tasks with fixed fixtures, services, workspaces, and graders. For grading, Claw-Eval-Live records execution traces, audit logs, service state, and post-run workspace artifacts, using deterministic checks when evidence is sufficient and structured LLM judging only for semantic dimensions. The release contains 105 tasks spanning controlled business services and local workspace repair, and evaluates 13 frontier models under a shared public pass rule. Experiments reveal that reliable workflow automation remains far from solved: the leading model passes only 66.7% of tasks and no model reaches 70%. Failures are structured by task family and execution surface, with HR, management, and multi-system business workflows as persistent bottlenecks and local workspace repair comparatively easier but unsaturated. Leaderboard rank alone is insufficient because models with similar pass rates can diverge in overall completion, and task-level discrimination concentrates in a middle band of tasks. Claw-Eval-Live suggests that workflow-agent evaluation should be grounded twice, in fresh external demand and in verifiable agent action.