GPA: Обучение автоматизации процессов GUI по демонстрациям
GPA: Learning GUI Process Automation from Demonstrations
April 2, 2026
Авторы: Zirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li
cs.AI
Аннотация
Автоматизация процессов на основе графического интерфейса (GPA) — это облегченный, но универсальный вариант роботизированной автоматизации процессов (RPA), основанный на компьютерном зрении, который позволяет выполнять быстрое и стабильное воспроизведение процессов всего по одной демонстрации. Решая проблему хрупкости традиционной RPA и недетерминированных рисков современных GUI-агентов на основе языковых моделей, GPA предлагает три ключевых преимущества: (1) **Устойчивость** за счет локализации на основе последовательного метода Монте-Карло для обработки неопределенностей изменения масштаба и обнаружения элементов; (2) **Детерминированность и надежность**, обеспечиваемые калибровкой готовности; и (3) **Конфиденциальность** благодаря быстрому полностью локальному выполнению. Данный подход обеспечивает необходимую адаптируемость, отказоустойчивость и безопасность для корпоративных рабочих процессов. GPA также может использоваться другими агентами с навыками программирования в качестве инструмента MCP/CLI, так что агент занимается только принятием решений и оркестрацией, в то время как GPA выполняет действия в графическом интерфейсе. В ходе пилотного эксперимента по сравнению GPA с Gemini 3 Pro (с инструментами CUA) было установлено, что GPA демонстрирует более высокий процент успешного выполнения длительных задач в графическом интерфейсе при скорости исполнения в 10 раз выше.
English
GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.