WeaveBench : un benchmark à long horizon et en environnement réel pour les agents d'utilisation d'ordinateur dotés d'interfaces hybrides

Résumé

Les agents d'utilisation d'ordinateur (CUA) opèrent de plus en plus dans des environnements d'exécution combinant le contrôle visuel du bureau, l'exécution en ligne de commande, l'édition de code, les navigateurs et les outils externes. Les benchmarks existants, cependant, évaluent souvent ces interfaces comme des capacités séparables, laissant l'orchestration inter-interface à long horizon sous-testée. Ainsi, nous introduisons WeaveBench, un benchmark à interface hybride à long horizon comprenant 114 tâches couvrant 8 domaines de travail réels, ancrées dans des demandes utilisateur authentiques et des artefacts vérifiables publiquement. Chaque tâche exige que les agents combinent observations/actions GUI avec opérations CLI/code au sein d'une même trajectoire. Nous évaluons ces tâches sur un bureau Ubuntu réel au sein d'environnements d'exécution d'agents CLI déployés, augmentés d'un plugin minimal de contrôle de bureau. Nous proposons également un juge compagnon sensible à la trajectoire, qui inspecte les livrables, fichiers, captures d'écran, journaux et traces d'actions, tout en détectant les comportements de contournement tels que les preuves visuelles fabriquées ou les métriques codées en dur. Pour les couplages modèle-environnement d'exécution de pointe, le meilleur taux de réussite n'atteint que 41,2 %, montrant que le benchmark reste loin d'être saturé. Le juge sensible à la trajectoire révèle en outre que l'évaluation basée uniquement sur les résultats surestime considérablement les performances des agents. Globalement, WeaveBench expose un fossé critique dans l'évaluation des CUA et fournit un banc d'essai efficace pour mesurer si les agents peuvent orchestrer des opérations GUI, CLI et code sur des tâches du monde réel à long horizon.

English

Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, browsers, and external tools. Existing benchmarks, however, often evaluate these interfaces as separable capabilities, leaving long-horizon cross-interface orchestration under-tested. Thus, we introduce WeaveBench, a long-horizon hybrid-interface benchmark with 114 tasks across 8 real-world work domains, grounded in real user requests and publicly verifiable artifacts. Each task requires agents to combine GUI observations/actions with CLI/code operations within a single trajectory. We evaluate these tasks on a real Ubuntu desktop inside deployed CLI-agent runtimes, augmented with a minimal desktop-control plugin. We also propose a companion trajectory-aware judge that inspects deliverables, files, screenshots, logs, and action traces, while detecting shortcut behaviors such as fabricated visual evidence or hard-coded metrics. Across frontier model-runtime pairings, the best PassRate reaches only 41.2%, showing the benchmark remains far from saturated. The trajectory-aware judge further reveals that outcome-only grading substantially overestimates agent performance. Overall, WeaveBench exposes a critical gap in CUA evaluation and provides an effective testbed to measure whether agents can orchestrate GUI, CLI, and code operations across long-horizon real-world tasks.