ChatPaper.aiChatPaper

GPA: Erlernen der GUI-Prozessautomatisierung durch Demonstrationen

GPA: Learning GUI Process Automation from Demonstrations

April 2, 2026
Autoren: Zirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li
cs.AI

Zusammenfassung

GUI-Prozessautomatisierung (GPA) ist eine leichtgewichtige, aber allgemeine visuell basierte Robotic Process Automation (RPA), die eine schnelle und stabile Prozesswiedergabe mit nur einer einzigen Demonstration ermöglicht. Um die Anfälligkeit traditioneller Rpa-Systeme und die nicht-deterministischen Risiken aktueller GUI-Agenten auf Basis visueller Sprachmodelle zu adressieren, bietet GPA drei zentrale Vorteile: (1) Robustheit durch sequenzielle Monte-Carlo-basierte Lokalisierung zur Handhabung von Skalierungsänderungen und Detektionsunsicherheiten; (2) Deterministische Ausführung und Zuverlässigkeit abgesichert durch Bereitschaftskalibrierung; und (3) Datenschutz durch schnelle, vollständig lokale Ausführung. Dieser Ansatz liefert die für Unternehmensworkflows erforderliche Anpassungsfähigkeit, Robustheit und Sicherheit. GPA kann auch als MCP/CLI-Tool von anderen Agenten mit Programmierfähigkeiten genutzt werden, sodass der Agent nur plant und orchestriert, während GPA die GUI-Ausführung übernimmt. In einem Pilotexperiment verglichen wir GPA mit Gemini 3 Pro (mit CUA-Tools) und stellten fest, dass GPA bei der Ausführung langfristiger GUI-Aufgaben eine höhere Erfolgsquote bei 10-fach schnellerer Ausführungsgeschwindigkeit erreicht.
English
GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.
PDF71April 4, 2026