VLAA-GUI: Sapere Quando Fermarsi, Riprendersi e Cercare. Un Framework Modulare per l'Automazione delle Interfacce Grafiche

Abstract

Gli agenti autonomi per interfacce grafiche affrontano due sfide fondamentali: l'arresto precoce, in cui gli agenti dichiarano prematuramente il successo senza prove verificabili, e i loop ripetitivi, in cui gli agenti ciclano attraverso le stesse azioni fallimentari senza riuscire a recuperare. Presentiamo VLAA-GUI, un framework modulare per agenti GUI costruito attorno a tre componenti integrate che guidano il sistema su quando Fermarsi, Recuperare e Cercare. In primo luogo, un Verificatore di Completezza obbligatorio impone criteri di successo osservabili nell'interfaccia utente e una verifica ad ogni passo finale, con un verificatore a livello di agente che esamina incrociando le affermazioni di completamento con regole decisionali, respingendo quelle prive di evidenza visiva diretta. In secondo luogo, un Interrompi-Loop obbligatorio fornisce un filtraggio multi-livello: cambiando la modalità di interazione dopo ripetuti fallimenti, forzando cambi di strategia dopo la ricorrenza persistente dello stato dello schermo e collegando i segnali di riflessione a cambi di strategia. In terzo luogo, un Agente di Ricerca on-demand cerca online flussi di lavoro non familiari interrogando direttamente un LLM capace con abilità di ricerca, restituendo i risultati in testo semplice. Integriamo inoltre un Agente di Programmazione per azioni intensive di codice e un Agente di Grounding per un grounding preciso delle azioni, entrambi invocati on-demand quando necessario. Valutiamo VLAA-GUI su cinque backbone di primo livello, inclusi Opus 4.5, 4.6 e Gemini 3.1 Pro, su due benchmark con task Linux e Windows, raggiungendo le prestazioni migliori su entrambi (77,5% su OSWorld e 61,0% su WindowsAgentArena). Notevolmente, tre dei cinque backbone superano le prestazioni umane (72,4%) su OSWorld in un singolo passaggio. Studi di ablazione mostrano che tutte e tre le componenti proposte migliorano consistentemente un backbone forte, mentre un backbone più debole beneficia maggiormente di questi strumenti quando il budget di step è sufficiente. Un'ulteriore analisi mostra anche che l'Interrompi-Loop quasi dimezza gli step sprecati per i modelli inclini ai loop.

English

Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.

VLAA-GUI: Sapere Quando Fermarsi, Riprendersi e Cercare. Un Framework Modulare per l'Automazione delle Interfacce Grafiche

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

Abstract

Support