ChatPaper.aiChatPaper

VLAA-GUI: Sapere Quando Fermarsi, Riprendersi e Cercare. Un Framework Modulare per l'Automazione delle Interfacce Grafiche

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

April 23, 2026
Autori: Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
cs.AI

Abstract

Gli agenti autonomi per interfacce grafiche affrontano due sfide fondamentali: l'arresto precoce, in cui gli agenti dichiarano prematuramente il successo senza prove verificabili, e i loop ripetitivi, in cui gli agenti ciclano attraverso le stesse azioni fallimentari senza riuscire a recuperare. Presentiamo VLAA-GUI, un framework modulare per agenti GUI costruito attorno a tre componenti integrate che guidano il sistema su quando Fermarsi, Recuperare e Cercare. In primo luogo, un Verificatore di Completezza obbligatorio impone criteri di successo osservabili nell'interfaccia utente e una verifica ad ogni passo finale, con un verificatore a livello di agente che esamina incrociando le affermazioni di completamento con regole decisionali, respingendo quelle prive di evidenza visiva diretta. In secondo luogo, un Interrompi-Loop obbligatorio fornisce un filtraggio multi-livello: cambiando la modalità di interazione dopo ripetuti fallimenti, forzando cambi di strategia dopo la ricorrenza persistente dello stato dello schermo e collegando i segnali di riflessione a cambi di strategia. In terzo luogo, un Agente di Ricerca on-demand cerca online flussi di lavoro non familiari interrogando direttamente un LLM capace con abilità di ricerca, restituendo i risultati in testo semplice. Integriamo inoltre un Agente di Programmazione per azioni intensive di codice e un Agente di Grounding per un grounding preciso delle azioni, entrambi invocati on-demand quando necessario. Valutiamo VLAA-GUI su cinque backbone di primo livello, inclusi Opus 4.5, 4.6 e Gemini 3.1 Pro, su due benchmark con task Linux e Windows, raggiungendo le prestazioni migliori su entrambi (77,5% su OSWorld e 61,0% su WindowsAgentArena). Notevolmente, tre dei cinque backbone superano le prestazioni umane (72,4%) su OSWorld in un singolo passaggio. Studi di ablazione mostrano che tutte e tre le componenti proposte migliorano consistentemente un backbone forte, mentre un backbone più debole beneficia maggiormente di questi strumenti quando il budget di step è sufficiente. Un'ulteriore analisi mostra anche che l'Interrompi-Loop quasi dimezza gli step sprecati per i modelli inclini ai loop.
English
Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.
PDF101April 25, 2026