ChatPaper.aiChatPaper

GPA: 데모를 통한 GUI 프로세스 자동화 학습

GPA: Learning GUI Process Automation from Demonstrations

April 2, 2026
저자: Zirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li
cs.AI

초록

GUI 프로세스 자동화(GPA)는 경량이지만 범용적인 비전 기반 RPA로, 단일 데모만으로 빠르고 안정적인 프로세스 재생을 가능하게 합니다. 기존 RPA의 취약성과 현재 비전 언어 모델 기반 GUI 에이전트의 비결정적 위험을 해결하기 위해 GPA는 세 가지 핵심 이점을 도입합니다: (1) 순차적 몬테카를로 기반 로컬라이제이션을 통한 리사이징 및 검출 불확실성 처리로 인한 강건성, (2) 준비 상태 보정으로 보장되는 결정론적 신뢰성, (3) 빠른 완전 로컬 실행을 통한 개인정보 보호. 이 접근 방식은 엔터프라이즈 워크플로우에 필요한 적응성, 강건성 및 보안을 제공합니다. 또한 코딩 능력을 가진 다른 에이전트가 MCP/CLI 도구로 활용할 수 있어, 해당 에이전트는 추론과 오케스트레이션만 담당하고 GPA가 GUI 실행을 처리하도록 할 수 있습니다. 파일럿 실험을 통해 GPA와 Gemini 3 Pro(With CUA 도구)를 비교한 결과, GPA가 장기간 GUI 작업 완료에 있어 더 높은 성공률과 10배 빠른 실행 속도를 달성함을 확인했습니다.
English
GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.
PDF71April 4, 2026