Claw-Eval-Live: Un Benchmark per Agenti in Tempo Reale per Flussi di Lavoro Realistici in Evoluzione

Abstract

Ci si aspetta che gli agenti LLM completino unità di lavoro end-to-end attraverso strumenti software, servizi aziendali e spazi di lavoro locali. Tuttavia, molti benchmark per agenti congelano un set di task curato al momento del rilascio e valutano principalmente la risposta finale, rendendo difficile valutare gli agenti rispetto a una domanda di workflow in evoluzione o verificare se un'attività è stata eseguita. Introduciamo Claw-Eval-Live, un benchmark live per agenti di workflow che separa un livello di segnale aggiornabile, che viene aggiornato tra i rilasci sulla base di segnali pubblici di domanda di workflow, da un'istantanea di rilascio riproducibile e con timestamp. Ogni rilascio è costruito a partire da segnali pubblici di domanda di workflow, utilizzando le Top-500 skill di ClawHub valide per il rilascio corrente, ed è materializzato come task controllati con fixture, servizi, spazi di lavoro e valutatori fissi. Per la valutazione, Claw-Eval-Live registra tracce di esecuzione, log di audit, stato del servizio e artefatti dello spazio di lavoro post-esecuzione, utilizzando controlli deterministici quando le evidenze sono sufficienti e un giudizio LLM strutturato solo per le dimensioni semantiche. Il rilascio contiene 105 task che spaziano tra servizi aziendali controllati e riparazioni di spazi di lavoro locali, e valuta 13 modelli di frontiera secondo una regola di superamento pubblica e condivisa. Gli esperimenti rivelano che l'automazione affidabile dei workflow è tutt'altro che risolta: il modello leader supera solo il 66.7% dei task e nessun modello raggiunge il 70%. I fallimenti sono strutturati per famiglia di task e superficie di esecuzione, con i workflow aziendali di risorse umane, gestione e multi-sistema come colli di bottiglia persistenti, mentre la riparazione dello spazio di lavoro locale è relativamente più facile ma non satura. La classifica della leaderboard da sola è insufficiente perché modelli con tassi di superamento simili possono divergere nel completamento complessivo, e la discriminazione a livello di task si concentra in una fascia intermedia di attività. Claw-Eval-Live suggerisce che la valutazione degli agenti di workflow dovrebbe essere ancorata due volte: nella domanda esterna fresca e nell'azione verificabile dell'agente.

English

LLM agents are expected to complete end-to-end units of work across software tools, business services, and local workspaces. Yet many agent benchmarks freeze a curated task set at release time and grade mainly the final response, making it difficult to evaluate agents against evolving workflow demand or verify whether a task was executed. We introduce Claw-Eval-Live, a live benchmark for workflow agents that separates a refreshable signal layer, updated across releases from public workflow-demand signals, from a reproducible, time-stamped release snapshot. Each release is constructed from public workflow-demand signals, with ClawHub Top-500 skills used in the current release, and materialized as controlled tasks with fixed fixtures, services, workspaces, and graders. For grading, Claw-Eval-Live records execution traces, audit logs, service state, and post-run workspace artifacts, using deterministic checks when evidence is sufficient and structured LLM judging only for semantic dimensions. The release contains 105 tasks spanning controlled business services and local workspace repair, and evaluates 13 frontier models under a shared public pass rule. Experiments reveal that reliable workflow automation remains far from solved: the leading model passes only 66.7% of tasks and no model reaches 70%. Failures are structured by task family and execution surface, with HR, management, and multi-system business workflows as persistent bottlenecks and local workspace repair comparatively easier but unsaturated. Leaderboard rank alone is insufficient because models with similar pass rates can diverge in overall completion, and task-level discrimination concentrates in a middle band of tasks. Claw-Eval-Live suggests that workflow-agent evaluation should be grounded twice, in fresh external demand and in verifiable agent action.

Claw-Eval-Live: Un Benchmark per Agenti in Tempo Reale per Flussi di Lavoro Realistici in Evoluzione

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Abstract

Support