ChatPaper.aiChatPaper

GPA: デモンストレーションからのGUIプロセス自動化学習

GPA: Learning GUI Process Automation from Demonstrations

April 2, 2026
著者: Zirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li
cs.AI

要旨

GUIプロセスオートメーション(GPA)は、軽量でありながら汎用的なビジョンベースのRPA技術であり、単一のデモのみで高速かつ安定したプロセス再生を実現する。従来のRPAの脆弱性や、現在の視覚言語モデルベースのGUIエージェントが抱える非決定論的リスクに対処するため、GPAは以下の3つの核心的利点を提供する:(1)Sequential Monte Carloに基づく位置推定による堅牢性(スケーリング変化や検出の不確実性への対応)、(2)準備状態キャリブレーションによる決定論的動作と信頼性の保証、(3)完全ローカル実行による高速処理とプライバシー保護。本手法は、企業ワークフローに必要な適応性・堅牢性・安全性を兼ね備える。また、コーディング能力を有する他のエージェント向けのMCP/CLIツールとしても利用可能であり、エージェントは推論と調整に専念し、GUI操作はGPAが担当する分担が可能である。Gemini 3 Pro(CUAツール搭載)との比較パイロット実験では、GPAが長期的GUIタスクの完了において、成功率が高く、実行速度が10倍高速であることを確認した。
English
GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.
PDF71April 4, 2026