WeaveBench: um benchmark de longo horizonte e do mundo real para agentes de uso de computador com interfaces híbridas

Resumo

Agentes de uso de computador (CUAs) operam cada vez mais em ambientes de execução que combinam controle visual de desktop, execução de linha de comando, edição de código, navegadores e ferramentas externas. No entanto, os benchmarks existentes frequentemente avaliam essas interfaces como capacidades separáveis, deixando a orquestração entre interfaces de horizonte longo subtestada. Assim, apresentamos o WeaveBench, um benchmark de interface híbrida de horizonte longo com 114 tarefas em 8 domínios de trabalho do mundo real, baseado em solicitações reais de usuários e artefatos publicamente verificáveis. Cada tarefa exige que os agentes combinem observações/ações de GUI com operações de CLI/código dentro de uma única trajetória. Avaliamos essas tarefas em um desktop Ubuntu real dentro de ambientes de execução de agentes CLI implantados, aumentados com um plugin mínimo de controle de desktop. Também propomos um juiz companheiro ciente de trajetória que inspeciona entregas, arquivos, capturas de tela, logs e rastros de ação, enquanto detecta comportamentos de atalho, como evidência visual fabricada ou métricas codificadas. Em todas as combinações modelo-ambiente de execução de fronteira, a melhor Taxa de Aprovação atinge apenas 41,2%, mostrando que o benchmark está longe de estar saturado. O juiz ciente de trajetória revela ainda que a avaliação baseada apenas no resultado superestima substancialmente o desempenho do agente. No geral, o WeaveBench expõe uma lacuna crítica na avaliação de CUAs e fornece um ambiente de teste eficaz para medir se os agentes podem orquestrar operações de GUI, CLI e código em tarefas do mundo real de horizonte longo.

English

Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, browsers, and external tools. Existing benchmarks, however, often evaluate these interfaces as separable capabilities, leaving long-horizon cross-interface orchestration under-tested. Thus, we introduce WeaveBench, a long-horizon hybrid-interface benchmark with 114 tasks across 8 real-world work domains, grounded in real user requests and publicly verifiable artifacts. Each task requires agents to combine GUI observations/actions with CLI/code operations within a single trajectory. We evaluate these tasks on a real Ubuntu desktop inside deployed CLI-agent runtimes, augmented with a minimal desktop-control plugin. We also propose a companion trajectory-aware judge that inspects deliverables, files, screenshots, logs, and action traces, while detecting shortcut behaviors such as fabricated visual evidence or hard-coded metrics. Across frontier model-runtime pairings, the best PassRate reaches only 41.2%, showing the benchmark remains far from saturated. The trajectory-aware judge further reveals that outcome-only grading substantially overestimates agent performance. Overall, WeaveBench exposes a critical gap in CUA evaluation and provides an effective testbed to measure whether agents can orchestrate GUI, CLI, and code operations across long-horizon real-world tasks.