GPA: Aprendizado de Automação de Processos de Interface Gráfica a Partir de Demonstrações
GPA: Learning GUI Process Automation from Demonstrations
April 2, 2026
Autores: Zirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li
cs.AI
Resumo
A Automação de Processos via Interface Gráfica (GPA) é uma forma de Automação Robótica de Processos (RPA) leve mas geral, baseada em visão computacional, que permite uma reprodução de processos rápida e estável com apenas uma única demonstração. Para resolver a fragilidade da RPA tradicional e os riscos não determinísticos dos agentes de interface gráfica baseados em modelos de linguagem visual atuais, a GPA introduz três benefícios principais: (1) Robustez através de localização baseada em Sequential Monte Carlo para lidar com redimensionamento e incerteza de deteção; (2) Determinismo e Confiabilidade garantidos por calibração de prontidão; e (3) Privacidade através de execução totalmente local e rápida. Esta abordagem oferece a adaptabilidade, robustez e segurança necessárias para fluxos de trabalho empresariais. Também pode ser utilizada como uma ferramenta MCP/CLI por outros agentes com capacidades de codificação, de modo que o agente apenas raciocine e orquestre, enquanto a GPA trata da execução na interface gráfica. Realizámos uma experiência piloto para comparar a GPA com o Gemini 3 Pro (com ferramentas CUA) e verificámos que a GPA atinge uma taxa de sucesso superior com uma velocidade de execução 10 vezes maior na conclusão de tarefas de interface gráfica de longo prazo.
English
GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.