VLAA-GUI: Weten Wanneer te Stoppen, te Herstellen en te Zoeken. Een modulair raamwerk voor GUI-automatisering.
VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation
April 23, 2026
Auteurs: Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
cs.AI
Samenvatting
Autonome GUI-agents worden geconfronteerd met twee fundamentele uitdagingen: vroegtijdig stoppen, waarbij agents voortijdig succes claimen zonder verifieerbaar bewijs, en repetitieve lussen, waarbij agents eindeloos dezelfde mislukkende acties herhalen zonder herstel. Wij presenteren VLAA-GUI, een modulair GUI-agentframework opgebouwd rond drie geïntegreerde componenten die het systeem leiden over wanneer te Stoppen, te Herstellen en te Zoeken. Ten eerste dwingt een verplichte Compleetheidsverifieraar waarneembare UI-succescriteria en verificatie af bij elke eindstap – met een agent-level verifieraar die voltooiingsclaims kruisverhoort met beslissingsregels en claims zonder direct visueel bewijs afwijst. Ten tweede biedt een verplichte Lusverbreker multi-level filtering: hij schakelt de interactiemodus na herhaalde mislukkingen, forceert strategiewijzigingen bij aanhoudende herhaling van de schermstatus en koppelt reflectiesignalen aan strategieveranderingen. Ten derde zoekt een on-demand Zoekagent online naar onbekende workflows door direct een query uit te voeren bij een krachtige LLM met zoekcapaciteit, waarbij resultaten als platte tekst worden teruggegeven. Wij integreren daarnaast een Coderingsagent voor code-intensieve acties en een Verankeringsagent voor precieze actieverankering, beide on-demand aangeroepen wanneer nodig. Wij evalueren VLAA-GUI over vijf top-tier backbones, waaronder Opus 4.5, 4.6 en Gemini 3.1 Pro, op twee benchmarks met Linux- en Windows-taken, en behalen topprestaties op beide (77,5% op OSWorld en 61,0% op WindowsAgentArena). Opmerkelijk is dat drie van de vijf backbones de menselijke prestatie (72,4%) op OSWorld in één poging overtreffen. Ablatiestudies tonen aan dat alle drie de voorgestelde componenten een sterke backbone consistent verbeteren, terwijl een zwakkere backbone meer baat heeft bij deze tools wanneer het stappenbudget voldoende is. Verdere analyse toont ook aan dat de Lusverbreker verspilde stappen voor lusgevoelige modellen bijna halveert.
English
Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.