ClawBench: Os Agentes de IA Podem Realizar Tarefas Online do Dia a Dia?

Resumo

Os agentes de IA podem automatizar sua caixa de entrada, mas serão capazes de automatizar outros aspectos rotineiros da sua vida? Tarefas online cotidianas oferecem um campo de testes realista e ainda não solucionado para avaliar a próxima geração de agentes de IA. Para isso, apresentamos o ClawBench, uma estrutura de avaliação com 153 tarefas simples que as pessoas precisam realizar regularmente em suas vidas e trabalho, abrangendo 144 plataformas ativas em 15 categorias – desde completar compras e marcar compromissos até enviar candidaturas a empregos. Essas tarefas exigem capacidades além dos benchmarks existentes, como obter informações relevantes de documentos fornecidos pelo usuário, navegar por fluxos de trabalho de múltiplas etapas em diversas plataformas e operações com grande demanda de escrita, como preencher formulários detalhados corretamente. Diferente dos benchmarks existentes que avaliam agentes em ambientes offline com páginas estáticas, o ClawBench opera em sites de produção, preservando toda a complexidade, natureza dinâmica e desafios da interação real na web. Uma camada de intercepção leve captura e bloqueia apenas a requisição final de envio, garantindo avaliação segura sem efeitos colaterais no mundo real. Nossas avaliações de 7 modelos de ponta mostram que tanto modelos proprietários quanto de código aberto conseguem completar apenas uma pequena parte dessas tarefas. Por exemplo, o Claude Sonnet 4.6 atinge apenas 33,3%. O progresso no ClawBench nos aproxima de agentes de IA que possam funcionar como assistentes generalistas confiáveis.

English

AI agents may be able to automate your inbox, but can they automate other routine aspects of your life? Everyday online tasks offer a realistic yet unsolved testbed for evaluating the next generation of AI agents. To this end, we introduce ClawBench, an evaluation framework of 153 simple tasks that people need to accomplish regularly in their lives and work, spanning 144 live platforms across 15 categories, from completing purchases and booking appointments to submitting job applications. These tasks require demanding capabilities beyond existing benchmarks, such as obtaining relevant information from user-provided documents, navigating multi-step workflows across diverse platforms, and write-heavy operations like filling in many detailed forms correctly. Unlike existing benchmarks that evaluate agents in offline sandboxes with static pages, ClawBench operates on production websites, preserving the full complexity, dynamic nature, and challenges of real-world web interaction. A lightweight interception layer captures and blocks only the final submission request, ensuring safe evaluation without real-world side effects. Our evaluations of 7 frontier models show that both proprietary and open-source models can complete only a small portion of these tasks. For example, Claude Sonnet 4.6 achieves only 33.3%. Progress on ClawBench brings us closer to AI agents that can function as reliable general-purpose assistants.

ClawBench: Os Agentes de IA Podem Realizar Tarefas Online do Dia a Dia?

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Resumo

Support