Claw-Eval-Live : Un benchmark d'agents en direct pour l'évolution des workflows du monde réel

Résumé

Les agents LLM sont censés accomplir des unités de travail de bout en bout à travers des outils logiciels, des services métier et des espaces de travail locaux. Pourtant, de nombreux benchmarks d'agents figent un ensemble de tâches sélectionné au moment de leur publication et évaluent principalement la réponse finale, ce qui rend difficile l'évaluation des agents face à une demande de workflow évolutive ou la vérification de l'exécution d'une tâche. Nous présentons Claw-Eval-Live, un benchmark dynamique pour les agents de workflow qui sépare une couche de signal actualisable, mise à jour à chaque version à partir de signaux publics de demande de workflow, d'un instantané de version reproductible et horodaté. Chaque version est construite à partir de signaux publics de demande de workflow, en utilisant les Top-500 compétences de ClawHub pour la version courante, et matérialisée sous forme de tâches contrôlées avec des fixtures, services, espaces de travail et correcteurs fixes. Pour l'évaluation, Claw-Eval-Live enregistre les traces d'exécution, les journaux d'audit, l'état des services et les artefacts post-exécution de l'espace de travail, en utilisant des vérifications déterministes lorsque les preuves sont suffisantes et un jugement LLM structuré uniquement pour les dimensions sémantiques. La version contient 105 tâches couvrant des services métier contrôlés et la réparation d'espaces de travail locaux, et évalue 13 modèles de pointe selon une règle de réussite publique commune. Les expériences révèlent que l'automatisation fiable des workflows est loin d'être résolue : le modèle leader ne réussit que 66,7 % des tâches et aucun modèle n'atteint 70 %. Les échecs sont structurés par famille de tâches et surface d'exécution, les workflows métier RH, de gestion et multi-systèmes constituant des goulots d'étranglement persistants, tandis que la réparation d'espaces de travail locaux est relativement plus facile mais non saturée. Le classement au leaderboard seul est insuffisant car des modèles avec des taux de réussite similaires peuvent diverger dans l'achèvement global, et la discrimination au niveau des tâches se concentre sur une bande médiane. Claw-Eval-Live suggère que l'évaluation des agents de workflow devrait être ancrée doublement : dans une demande externe actualisée et dans une action d'agent vérifiable.

English

LLM agents are expected to complete end-to-end units of work across software tools, business services, and local workspaces. Yet many agent benchmarks freeze a curated task set at release time and grade mainly the final response, making it difficult to evaluate agents against evolving workflow demand or verify whether a task was executed. We introduce Claw-Eval-Live, a live benchmark for workflow agents that separates a refreshable signal layer, updated across releases from public workflow-demand signals, from a reproducible, time-stamped release snapshot. Each release is constructed from public workflow-demand signals, with ClawHub Top-500 skills used in the current release, and materialized as controlled tasks with fixed fixtures, services, workspaces, and graders. For grading, Claw-Eval-Live records execution traces, audit logs, service state, and post-run workspace artifacts, using deterministic checks when evidence is sufficient and structured LLM judging only for semantic dimensions. The release contains 105 tasks spanning controlled business services and local workspace repair, and evaluates 13 frontier models under a shared public pass rule. Experiments reveal that reliable workflow automation remains far from solved: the leading model passes only 66.7% of tasks and no model reaches 70%. Failures are structured by task family and execution surface, with HR, management, and multi-system business workflows as persistent bottlenecks and local workspace repair comparatively easier but unsaturated. Leaderboard rank alone is insufficient because models with similar pass rates can diverge in overall completion, and task-level discrimination concentrates in a middle band of tasks. Claw-Eval-Live suggests that workflow-agent evaluation should be grounded twice, in fresh external demand and in verifiable agent action.

Claw-Eval-Live : Un benchmark d'agents en direct pour l'évolution des workflows du monde réel

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Résumé

Support