Claw-Eval-Live: Un Benchmark de Agentes en Vivo para Flujos de Trabajo del Mundo Real en Evolución

Resumen

Se espera que los agentes LLM completen unidades de trabajo integrales a través de herramientas de software, servicios empresariales y espacios de trabajo locales. Sin embargo, muchos benchmarks para agentes congelan un conjunto de tareas seleccionado en el momento de su lanzamiento y califican principalmente la respuesta final, lo que dificulta evaluar a los agentes frente a demandas de flujo de trabajo en evolución o verificar si una tarea se ejecutó correctamente. Introducimos Claw-Eval-Live, un benchmark dinámico para agentes de flujo de trabajo que separa una capa de señal actualizable, modificada entre versiones a partir de señales públicas de demanda de flujo de trabajo, de una instantánea de lanzamiento reproducible y con marca de tiempo. Cada versión se construye a partir de señales públicas de demanda de flujo de trabajo, utilizando las 500 habilidades principales de ClawHub vigentes en el lanzamiento actual, y se materializa como tareas controladas con fixtures, servicios, espacios de trabajo y evaluadores fijos. Para la calificación, Claw-Eval-Live registra trazas de ejecución, logs de auditoría, estado de los servicios y artefactos del espacio de trabajo posteriores a la ejecución, utilizando comprobaciones deterministas cuando la evidencia es suficiente y solo empleando evaluación mediante LLM estructurado para dimensiones semánticas. La versión actual contiene 105 tareas que abarcan servicios empresariales controlados y reparación de espacios de trabajo locales, y evalúa 13 modelos de vanguardia bajo una regla pública común de aprobación. Los experimentos revelan que la automatización fiable de flujos de trabajo dista de estar resuelta: el modelo líder aprueba solo el 66.7% de las tareas y ningún modelo alcanza el 70%. Los fallos se estructuran por familia de tareas y superficie de ejecución, siendo los flujos de trabajo empresariales de RRHH, gestión y multi-sistema cuellos de botella persistentes, mientras que la reparación de espacios de trabajo locales resulta comparativamente más fácil pero no saturada. El ranking en la tabla de clasificación por sí solo es insuficiente, ya que modelos con tasas de aprobación similares pueden divergir en la finalización general, y la discriminación a nivel de tarea se concentra en una banda intermedia. Claw-Eval-Live sugiere que la evaluación de agentes de flujo de trabajo debe basarse en dos pilares: la demanda externa actualizada y la acción verificable del agente.

English

LLM agents are expected to complete end-to-end units of work across software tools, business services, and local workspaces. Yet many agent benchmarks freeze a curated task set at release time and grade mainly the final response, making it difficult to evaluate agents against evolving workflow demand or verify whether a task was executed. We introduce Claw-Eval-Live, a live benchmark for workflow agents that separates a refreshable signal layer, updated across releases from public workflow-demand signals, from a reproducible, time-stamped release snapshot. Each release is constructed from public workflow-demand signals, with ClawHub Top-500 skills used in the current release, and materialized as controlled tasks with fixed fixtures, services, workspaces, and graders. For grading, Claw-Eval-Live records execution traces, audit logs, service state, and post-run workspace artifacts, using deterministic checks when evidence is sufficient and structured LLM judging only for semantic dimensions. The release contains 105 tasks spanning controlled business services and local workspace repair, and evaluates 13 frontier models under a shared public pass rule. Experiments reveal that reliable workflow automation remains far from solved: the leading model passes only 66.7% of tasks and no model reaches 70%. Failures are structured by task family and execution surface, with HR, management, and multi-system business workflows as persistent bottlenecks and local workspace repair comparatively easier but unsaturated. Leaderboard rank alone is insufficient because models with similar pass rates can diverge in overall completion, and task-level discrimination concentrates in a middle band of tasks. Claw-Eval-Live suggests that workflow-agent evaluation should be grounded twice, in fresh external demand and in verifiable agent action.

Claw-Eval-Live: Un Benchmark de Agentes en Vivo para Flujos de Trabajo del Mundo Real en Evolución

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Resumen

Support