Агенты GUI с большой языковой моделью: обзор
Large Language Model-Brained GUI Agents: A Survey
November 27, 2024
Авторы: Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Аннотация
Графические пользовательские интерфейсы (GUI) давно являются центральным элементом взаимодействия человека с компьютером, предоставляя интуитивный и визуально ориентированный способ доступа и взаимодействия с цифровыми системами. Появление LLM, особенно мультимодельных моделей, открыло новую эру автоматизации GUI. Они продемонстрировали исключительные способности в понимании естественного языка, генерации кода и обработке изображений. Это положило начало новому поколению агентов GUI с LLM, способных интерпретировать сложные элементы GUI и автономно выполнять действия на основе инструкций на естественном языке. Эти агенты представляют собой парадигмальный сдвиг, позволяя пользователям выполнять сложные многоэтапные задачи через простые разговорные команды. Их применение охватывает веб-навигацию, взаимодействие с мобильными приложениями и автоматизацию рабочего стола, предлагая трансформационный пользовательский опыт, который революционизирует способы взаимодействия людей с программным обеспечением. Это развивающееся направление быстро продвигается вперед, с значительными успехами как в исследованиях, так и в промышленности.
Для структурированного понимания этой тенденции в данной статье представлен обширный обзор агентов GUI с LLM, исследуя их историческое развитие, основные компоненты и передовые техники. Мы рассматриваем исследовательские вопросы, такие как существующие фреймворки агентов GUI, сбор и использование данных для обучения специализированных агентов GUI, разработку крупных моделей действий, адаптированных для GUI задач, и метрики оценки и стандарты, необходимые для оценки их эффективности. Кроме того, мы рассматриваем новые приложения, работающие на основе этих агентов. Через детальный анализ этот обзор выявляет ключевые исследовательские пробелы и намечает план развития для будущих достижений в этой области. Объединяя фундаментальные знания и передовые разработки, данная работа нацелена на то, чтобы направить как исследователей, так и практиков на преодоление вызовов и раскрытие полного потенциала агентов GUI с LLM.
English
GUIs have long been central to human-computer interaction, providing an
intuitive and visually-driven way to access and interact with digital systems.
The advent of LLMs, particularly multimodal models, has ushered in a new era of
GUI automation. They have demonstrated exceptional capabilities in natural
language understanding, code generation, and visual processing. This has paved
the way for a new generation of LLM-brained GUI agents capable of interpreting
complex GUI elements and autonomously executing actions based on natural
language instructions. These agents represent a paradigm shift, enabling users
to perform intricate, multi-step tasks through simple conversational commands.
Their applications span across web navigation, mobile app interactions, and
desktop automation, offering a transformative user experience that
revolutionizes how individuals interact with software. This emerging field is
rapidly advancing, with significant progress in both research and industry.
To provide a structured understanding of this trend, this paper presents a
comprehensive survey of LLM-brained GUI agents, exploring their historical
evolution, core components, and advanced techniques. We address research
questions such as existing GUI agent frameworks, the collection and utilization
of data for training specialized GUI agents, the development of large action
models tailored for GUI tasks, and the evaluation metrics and benchmarks
necessary to assess their effectiveness. Additionally, we examine emerging
applications powered by these agents. Through a detailed analysis, this survey
identifies key research gaps and outlines a roadmap for future advancements in
the field. By consolidating foundational knowledge and state-of-the-art
developments, this work aims to guide both researchers and practitioners in
overcoming challenges and unlocking the full potential of LLM-brained GUI
agents.Summary
AI-Generated Summary