ChatPaper.aiChatPaper

Claw-Eval-Live: Um Benchmark de Agente em Tempo Real para Fluxos de Trabalho em Evolução no Mundo Real

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

April 30, 2026
Autores: Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li, Lei Li, Benyou Wang, Yixuan Yuan
cs.AI

Resumo

Espera-se que os agentes de LLM (Large Language Model) completem unidades de trabalho de ponta a ponta através de ferramentas de software, serviços empresariais e espaços de trabalho locais. No entanto, muitos benchmarks para agentes congelam um conjunto de tarefas selecionado no momento do lançamento e avaliam principalmente a resposta final, dificultando a avaliação dos agentes face à evolução da demanda de fluxos de trabalho ou a verificação da execução de uma tarefa. Apresentamos o Claw-Eval-Live, um benchmark dinâmico para agentes de fluxo de trabalho que separa uma camada de sinal atualizável, renovada entre lançamentos a partir de sinais públicos de demanda de fluxo de trabalho, de um snapshot de lançamento reproduzível e com carimbo de tempo. Cada lançamento é construído a partir de sinais públicos de demanda de fluxo de trabalho, utilizando as 500 principais competências (Top-500 skills) do ClawHub na versão atual, e é materializado como tarefas controladas com fixtures, serviços, espaços de trabalho e avaliadores fixos. Para a avaliação, o Claw-Eval-Live regista traços de execução, logs de auditoria, estado dos serviços e artefactos do espaço de trabalho pós-execução, utilizando verificações determinísticas quando a evidência é suficiente e recorrendo à avaliação estruturada por LLM apenas para dimensões semânticas. O lançamento contém 105 tarefas que abrangem serviços empresariais controlados e reparação de espaços de trabalho locais, e avalia 13 modelos de fronteira sob uma regra pública e partilhada de aprovação. Experiências revelam que a automação fiável de fluxos de trabalho está longe de estar resolvida: o modelo líder aprova apenas 66,7% das tarefas e nenhum modelo atinge os 70%. As falhas estruturam-se por família de tarefas e superfície de execução, com fluxos de trabalho de Recursos Humanos, gestão e sistemas multi-empresariais como estrangulamentos persistentes, enquanto a reparação de espaços de trabalho locais é comparativamente mais fácil, mas não saturada. A classificação no *leaderboard* por si só é insuficiente, pois modelos com taxas de aprovação semelhantes podem divergir na conclusão geral, e a discriminação a nível de tarefa concentra-se numa faixa intermédia. O Claw-Eval-Live sugere que a avaliação de agentes de fluxo de trabalho deve ser duplamente fundamentada: na demanda externa atualizada e na ação verificável do agente.
English
LLM agents are expected to complete end-to-end units of work across software tools, business services, and local workspaces. Yet many agent benchmarks freeze a curated task set at release time and grade mainly the final response, making it difficult to evaluate agents against evolving workflow demand or verify whether a task was executed. We introduce Claw-Eval-Live, a live benchmark for workflow agents that separates a refreshable signal layer, updated across releases from public workflow-demand signals, from a reproducible, time-stamped release snapshot. Each release is constructed from public workflow-demand signals, with ClawHub Top-500 skills used in the current release, and materialized as controlled tasks with fixed fixtures, services, workspaces, and graders. For grading, Claw-Eval-Live records execution traces, audit logs, service state, and post-run workspace artifacts, using deterministic checks when evidence is sufficient and structured LLM judging only for semantic dimensions. The release contains 105 tasks spanning controlled business services and local workspace repair, and evaluates 13 frontier models under a shared public pass rule. Experiments reveal that reliable workflow automation remains far from solved: the leading model passes only 66.7% of tasks and no model reaches 70%. Failures are structured by task family and execution surface, with HR, management, and multi-system business workflows as persistent bottlenecks and local workspace repair comparatively easier but unsaturated. Leaderboard rank alone is insufficient because models with similar pass rates can diverge in overall completion, and task-level discrimination concentrates in a middle band of tasks. Claw-Eval-Live suggests that workflow-agent evaluation should be grounded twice, in fresh external demand and in verifiable agent action.
PDF171May 2, 2026