ChatPaper.aiChatPaper

GPA : Apprentissage de l'automatisation des processus d'interface graphique à partir de démonstrations

GPA: Learning GUI Process Automation from Demonstrations

April 2, 2026
Auteurs: Zirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li
cs.AI

Résumé

L'automatisation de processus par interface graphique (GPA) est une forme légère mais générale d'automatisation robotique de processus (RPA) basée sur la vision, permettant une relecture de processus rapide et stable à partir d'une seule démonstration. Pour remédier à la fragilité des RPA traditionnelles et aux risques non déterministes des agents d'interface graphique actuels basés sur des modèles de langage visuel, GPA introduit trois avantages fondamentaux : (1) La robustesse via une localisation basée sur la méthode de Monte-Carlo séquentielle pour gérer l'incertitude de redimensionnement et de détection ; (2) Le caractère déterministe et la fiabilité garantis par un étalonnage de préparation ; et (3) Le respect de la vie privée grâce à une exécution entièrement locale et rapide. Cette approche offre l'adaptabilité, la robustesse et la sécurité nécessaires aux flux de travail d'entreprise. Elle peut également être utilisée comme outil MCP/CLI par d'autres agents dotés de capacités de codage, permettant à l'agent de se concentrer sur le raisonnement et l'orchestration tandis que GPA gère l'exécution de l'interface graphique. Nous avons mené une expérience pilote comparant GPA à Gemini 3 Pro (avec outils CUA) et avons constaté que GPA atteint un taux de réussite supérieur avec une vitesse d'exécution 10 fois plus rapide pour accomplir des tâches graphiques de longue haleine.
English
GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.
PDF71April 4, 2026