GPA: Aprendizaje de Automatización de Procesos de GUI a partir de Demostraciones
GPA: Learning GUI Process Automation from Demonstrations
April 2, 2026
Autores: Zirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li
cs.AI
Resumen
La Automatización de Procesos de Interfaz Gráfica (GPA) es una Automatización Robótica de Procesos (RPA) basada en visión, ligera pero general, que permite una reproducción de procesos rápida y estable con una sola demostración. Abordando la fragilidad de la RPA tradicional y los riesgos no deterministas de los agentes de GUI actuales basados en modelos de lenguaje visual, GPA introduce tres beneficios principales: (1) Robustez mediante localización basada en Monte Carlo Secuencial para manejar la incertidumbre de redimensionamiento y detección; (2) Determinismo y Fiabilidad garantizados por calibración de preparación; y (3) Privacidad mediante ejecución totalmente local y rápida. Este enfoque proporciona la adaptabilidad, robustez y seguridad requeridas para flujos de trabajo empresariales. También puede utilizarse como herramienta MCP/CLI por otros agentes con capacidades de codificación, de modo que el agente solo razona y orquesta mientras GPA maneja la ejecución de la GUI. Realizamos un experimento piloto comparando GPA con Gemini 3 Pro (con herramientas CUA) y encontramos que GPA logra una tasa de éxito más alta con una velocidad de ejecución 10 veces mayor al completar tareas de GUI de largo horizonte.
English
GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.