WeaveBench: Ein Langzeit-Realwelt-Benchmark für Computer-Nutzungsagenten mit hybriden Schnittstellen

Zusammenfassung

Computer-Use-Agenten (CUAs) operieren zunehmend in Laufzeitumgebungen, die visuelle Desktop-Steuerung, Kommandozeilenausführung, Code-Editierung, Browser und externe Werkzeuge kombinieren. Bestehende Benchmarks bewerten diese Schnittstellen jedoch oft als voneinander trennbare Fähigkeiten, sodass die langfristige schnittstellenübergreifende Orchestrierung untergetestet bleibt. Daher führen wir WeaveBench ein, einen langfristigen Hybrid-Schnittstellen-Benchmark mit 114 Aufgaben aus 8 realen Arbeitsbereichen, der auf echten Benutzeranfragen und öffentlich überprüfbaren Artefakten basiert. Jede Aufgabe erfordert von den Agenten, GUI-Beobachtungen/-Aktionen mit CLI-/Code-Operationen innerhalb einer einzigen Trajektorie zu kombinieren. Wir evaluieren diese Aufgaben auf einem realen Ubuntu-Desktop innerhalb eingesetzter CLI-Agent-Laufzeitumgebungen, die um ein minimales Desktop-Steuerungs-Plugin erweitert wurden. Zudem schlagen wir einen begleitenden trajektorienbewussten Bewerter vor, der Liefergegenstände, Dateien, Screenshots, Protokolle und Aktionsspuren prüft und dabei Abkürzungsverhalten wie erfundene visuelle Belege oder hartcodierte Metriken erkennt. Über die Kombinationen von Frontier-Modell und Laufzeitumgebung hinweg erreicht die beste Bestehensrate nur 41,2 %, was zeigt, dass der Benchmark noch lange nicht gesättigt ist. Der trajektorienbewusste Bewerter zeigt zudem, dass eine rein ergebnisorientierte Benotung die Agentenleistung erheblich überschätzt. Insgesamt deckt WeaveBench eine kritische Lücke in der CUA-Evaluierung auf und bietet eine effektive Testumgebung, um zu messen, ob Agenten GUI-, CLI- und Code-Operationen über langfristige reale Aufgaben hinweg orchestrieren können.

English

Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, browsers, and external tools. Existing benchmarks, however, often evaluate these interfaces as separable capabilities, leaving long-horizon cross-interface orchestration under-tested. Thus, we introduce WeaveBench, a long-horizon hybrid-interface benchmark with 114 tasks across 8 real-world work domains, grounded in real user requests and publicly verifiable artifacts. Each task requires agents to combine GUI observations/actions with CLI/code operations within a single trajectory. We evaluate these tasks on a real Ubuntu desktop inside deployed CLI-agent runtimes, augmented with a minimal desktop-control plugin. We also propose a companion trajectory-aware judge that inspects deliverables, files, screenshots, logs, and action traces, while detecting shortcut behaviors such as fabricated visual evidence or hard-coded metrics. Across frontier model-runtime pairings, the best PassRate reaches only 41.2%, showing the benchmark remains far from saturated. The trajectory-aware judge further reveals that outcome-only grading substantially overestimates agent performance. Overall, WeaveBench exposes a critical gap in CUA evaluation and provides an effective testbed to measure whether agents can orchestrate GUI, CLI, and code operations across long-horizon real-world tasks.