WeaveBench: Un Benchmark de Largo Horizonte del Mundo Real para Agentes de Uso de Computadoras con Interfaces Híbridas

Resumen

Los agentes de uso de computadora (CUAs) operan cada vez más en entornos de ejecución que combinan control visual de escritorio, ejecución de línea de comandos, edición de código, navegadores y herramientas externas. Sin embargo, los puntos de referencia existentes suelen evaluar estas interfaces como capacidades separables, dejando insuficientemente evaluada la orquestación a largo plazo entre interfaces. Por ello, presentamos WeaveBench, un punto de referencia de interfaz híbrida de horizonte largo con 114 tareas en 8 dominios laborales del mundo real, fundamentadas en solicitudes reales de usuarios y artefactos verificables públicamente. Cada tarea requiere que los agentes combinen observaciones/acciones de GUI con operaciones de CLI/código dentro de una sola trayectoria. Evaluamos estas tareas en un escritorio Ubuntu real dentro de entornos de ejecución de agentes CLI implementados, aumentados con un complemento mínimo de control de escritorio. También proponemos un evaluador complementario consciente de la trayectoria que inspecciona entregables, archivos, capturas de pantalla, registros y rastros de acciones, mientras detecta comportamientos atajos como evidencia visual fabricada o métricas codificadas. En las combinaciones de modelos y entornos de ejecución más avanzados, la mejor tasa de aprobación (PassRate) alcanza solo el 41.2%, lo que demuestra que el punto de referencia está lejos de saturarse. El evaluador consciente de la trayectoria revela además que la calificación solo basada en resultados sobreestima sustancialmente el rendimiento del agente. En general, WeaveBench expone una brecha crítica en la evaluación de CUA y proporciona un banco de pruebas eficaz para medir si los agentes pueden orquestar operaciones de GUI, CLI y código en tareas del mundo real de horizonte largo.

English

Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, browsers, and external tools. Existing benchmarks, however, often evaluate these interfaces as separable capabilities, leaving long-horizon cross-interface orchestration under-tested. Thus, we introduce WeaveBench, a long-horizon hybrid-interface benchmark with 114 tasks across 8 real-world work domains, grounded in real user requests and publicly verifiable artifacts. Each task requires agents to combine GUI observations/actions with CLI/code operations within a single trajectory. We evaluate these tasks on a real Ubuntu desktop inside deployed CLI-agent runtimes, augmented with a minimal desktop-control plugin. We also propose a companion trajectory-aware judge that inspects deliverables, files, screenshots, logs, and action traces, while detecting shortcut behaviors such as fabricated visual evidence or hard-coded metrics. Across frontier model-runtime pairings, the best PassRate reaches only 41.2%, showing the benchmark remains far from saturated. The trajectory-aware judge further reveals that outcome-only grading substantially overestimates agent performance. Overall, WeaveBench exposes a critical gap in CUA evaluation and provides an effective testbed to measure whether agents can orchestrate GUI, CLI, and code operations across long-horizon real-world tasks.