GPA: Leren van GUI-procesautomatisering vanuit demonstraties
GPA: Learning GUI Process Automation from Demonstrations
April 2, 2026
Auteurs: Zirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li
cs.AI
Samenvatting
GUI-procesautomatisering (GPA) is een lichtgewicht maar algemene, op visie gebaseerde robotprocesautomatisering (RPA), waarmee processen snel en stabiel kunnen worden afgespeeld met slechts een enkele demonstratie. Om de kwetsbaarheid van traditionele RPA en de niet-deterministische risico's van huidige op visie-taalmodellen gebaseerde GUI-agents aan te pakken, introduceert GPA drie kernvoordelen: (1) Robuustheid via op Sequentiële Monte Carlo gebaseerde lokalisatie om herschaling en detectieonzekerheid te hanteren; (2) Determinisme en Betrouwbaarheid gewaarborgd door gereedheidskalibratie; en (3) Privacy door snelle, volledig lokale uitvoering. Deze aanpak biedt de aanpasbaarheid, robuustheid en beveiliging die nodig zijn voor enterprise-workflows. Het kan ook worden gebruikt als een MCP/CLI-tool door andere agents met codeercapaciteiten, zodat de agent alleen redeneert en orchestreert terwijl GPA de GUI-uitvoering afhandelt. We voerden een proefexperiment uit om GPA te vergelijken met Gemini 3 Pro (met CUA-tools) en ontdekten dat GPA een hoger slagingspercentage bereikt met een 10 keer snellere uitvoeringssnelheid bij het voltooien van GUI-taken met een lange tijdshorizon.
English
GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.