VLAA-GUI: Wissen, wann zu stoppen, zu regenerieren und zu suchen – Ein modulares Framework für die GUI-Automatisierung
VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation
April 23, 2026
Autoren: Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
cs.AI
Zusammenfassung
Autonome GUI-Agenten stehen vor zwei grundlegenden Herausforderungen: vorzeitiges Abbrechen (Early Stopping), bei dem Agenten Erfolg ohne überprüfbare Beweise voreilig erklären, und repetitive Schleifen, bei denen Agenten zyklisch dieselben fehlschlagenden Aktionen ohne Erholung wiederholen. Wir stellen VLAA-GUI vor, ein modulares agentenbasiertes GUI-Framework, das auf drei integrierten Komponenten basiert, die das System anleiten, wann es Stoppen, Wiederherstellen und Suchen soll. Erstens erzwingt ein obligatorischer Vollständigkeitsprüfer (Completeness Verifier) UI-beobachtbare Erfolgskriterien und Verifikation bei jedem Abschlussschritt – mit einem agentenbasierten Prüfer, der Abschlussbehauptungen mit Entscheidungsregeln überprüft und solche ohne direkte visuelle Beweise ablehnt. Zweitens bietet ein obligatorischer Schleifenunterbrecher (Loop Breaker) mehrstufige Filterung: Wechsel des Interaktionsmodus nach wiederholten Fehlschlägen, Erzwingen von Strategieänderungen bei anhaltender Wiederkehr des Bildschirmzustands und Bindung von Reflexionssignalen an Strategiewechsel. Drittens sucht ein bedarfsgesteuerter Such-Agent (Search Agent) online nach unbekannten Arbeitsabläufen, indem er direkt eine leistungsfähige LLM mit Suchfähigkeit abfragt und Ergebnisse als Klartext zurückgibt. Zusätzlich integrieren wir einen Code-Agenten (Coding Agent) für code-intensive Aktionen und einen Verankerungs-Agenten (Grounding Agent) für präzise Aktionsverankerung, die beide bei Bedarf aufgerufen werden. Wir evaluieren VLAA-GUI über fünf erstklassige Basismodelle, darunter Opus 4.5, 4.6 und Gemini 3.1 Pro, anhand zweier Benchmarks mit Linux- und Windows-Aufgaben und erzielen Top-Leistungen bei beiden (77,5 % auf OSWorld und 61,0 % auf WindowsAgentArena). Bemerkenswerterweise übertreffen drei der fünf Basismodelle die menschliche Leistung (72,4 %) auf OSWorld in einem einzigen Durchlauf. Ablationsstudien zeigen, dass alle drei vorgeschlagenen Komponenten ein starkes Basismodell konsistent verbessern, während ein schwächeres Basismodell mehr von diesen Werkzeugen profitiert, wenn das Schrittbudget ausreicht. Eine weitere Analyse zeigt auch, dass der Schleifenunterbrecher die verschwendeten Schritte für schleifenanfällige Modelle nahezu halbiert.
English
Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.