Агенты с графическим интерфейсом пользователя: обзор
GUI Agents: A Survey
December 18, 2024
Авторы: Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Xia, Xintong Li, Jing Shi, Hongjie Chen, Viet Dac Lai, Zhouhang Xie, Sungchul Kim, Ruiyi Zhang, Tong Yu, Mehrab Tanjim, Nesreen K. Ahmed, Puneet Mathur, Seunghyun Yoon, Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
cs.AI
Аннотация
Агенты Графического Пользовательского Интерфейса (GUI), основанные на Больших Моделях Фонда, выступают в качестве трансформационного подхода к автоматизации взаимодействия человека с компьютером. Эти агенты автономно взаимодействуют с цифровыми системами или программными приложениями через GUI, эмулируя действия человека, такие как клики, набор текста и навигацию по визуальным элементам на различных платформах. Вдохновленные растущим интересом и фундаментальной важностью агентов GUI, мы предоставляем обширный обзор, который категоризирует их бенчмарки, метрики оценки, архитектуры и методы обучения. Мы предлагаем унифицированную структуру, которая определяет их способности к восприятию, рассуждению, планированию и действию. Кроме того, мы выявляем важные открытые проблемы и обсуждаем ключевые направления развития. Наконец, данная работа служит основой для практиков и исследователей для интуитивного понимания текущего прогресса, техник, бенчмарков и критических открытых проблем, которые требуют решения.
English
Graphical User Interface (GUI) agents, powered by Large Foundation Models,
have emerged as a transformative approach to automating human-computer
interaction. These agents autonomously interact with digital systems or
software applications via GUIs, emulating human actions such as clicking,
typing, and navigating visual elements across diverse platforms. Motivated by
the growing interest and fundamental importance of GUI agents, we provide a
comprehensive survey that categorizes their benchmarks, evaluation metrics,
architectures, and training methods. We propose a unified framework that
delineates their perception, reasoning, planning, and acting capabilities.
Furthermore, we identify important open challenges and discuss key future
directions. Finally, this work serves as a basis for practitioners and
researchers to gain an intuitive understanding of current progress, techniques,
benchmarks, and critical open problems that remain to be addressed.Summary
AI-Generated Summary