ChatPaper.aiChatPaper

VLAA-GUI: Saber Cuándo Detenerse, Recuperarse y Buscar, Un Marco Modular para la Automatización de GUI

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

April 23, 2026
Autores: Qijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie
cs.AI

Resumen

Los agentes autónomos de interfaz gráfica de usuario (GUI) enfrentan dos desafíos fundamentales: la parada temprana, donde los agentes declaran éxito prematuramente sin evidencia verificable, y los bucles repetitivos, donde los agentes ciclan a través de las mismas acciones fallidas sin recuperación. Presentamos VLAA-GUI, un marco de agentes GUI modular construido en torno a tres componentes integrados que guían al sistema sobre cuándo Parar, Recuperar y Buscar. Primero, un Verificador de Completitud obligatorio aplica criterios de éxito observables en la UI y verificación en cada paso final —con un verificador a nivel de agente que interroga las afirmaciones de finalización con reglas de decisión, rechazando aquellas que carecen de evidencia visual directa. Segundo, un Rompedor de Bucles obligatorio proporciona un filtrado multinivel: cambiando el modo de interacción tras fallos repetidos, forzando cambios de estrategia tras la recurrencia persistente del estado de pantalla, y vinculando señales de reflexión a cambios de estrategia. Tercero, un Agente de Búsqueda bajo demanda busca en línea flujos de trabajo desconocidos consultando directamente a un LLM capacitado con habilidad de búsqueda, devolviendo los resultados en texto plano. Además, integramos un Agente de Codificación para acciones intensivas en código y un Agente de Anclaje para un anclaje preciso de acciones, ambos invocados bajo demanda cuando es necesario. Evaluamos VLAA-GUI en cinco arquitecturas base de primer nivel, incluyendo Opus 4.5, 4.6 y Gemini 3.1 Pro, en dos benchmarks con tareas de Linux y Windows, logrando el máximo rendimiento en ambos (77.5% en OSWorld y 61.0% en WindowsAgentArena). Notablemente, tres de las cinco arquitecturas base superan el rendimiento humano (72.4%) en OSWorld en una única pasada. Los estudios de ablación muestran que los tres componentes propuestos mejoran consistentemente una arquitectura base sólida, mientras que una arquitectura más débil se beneficia más de estas herramientas cuando el presupuesto de pasos es suficiente. Un análisis adicional también muestra que el Rompedor de Bucles reduce casi a la mitad los pasos desperdiciados para los modelos propensos a bucles.
English
Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.
PDF101April 25, 2026