Navegando el Mundo Digital como lo Hacen los Humanos: Fundamentos Visuales Universales para Agentes de Interfaz Gráfica de Usuario (GUI)
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents
October 7, 2024
Autores: Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su
cs.AI
Resumen
Los modelos de lenguaje multimodales grandes (MLLMs) están transformando las capacidades de los agentes de interfaz gráfica de usuario (GUI), facilitando su transición desde simulaciones controladas hasta aplicaciones complejas del mundo real en diversas plataformas. Sin embargo, la efectividad de estos agentes depende de la solidez de su capacidad de fundamentación. Los agentes de GUI actuales utilizan predominantemente representaciones basadas en texto como HTML o árboles de accesibilidad, que, a pesar de su utilidad, a menudo introducen ruido, incompletitud y una mayor carga computacional. En este documento abogamos por una encarnación similar a la humana para los agentes de GUI que perciben el entorno de manera totalmente visual y realizan operaciones a nivel de píxel directamente en la GUI. La clave son los modelos de fundamentación visual que pueden mapear con precisión diversas expresiones de referencia de elementos de GUI a sus coordenadas en la GUI en diferentes plataformas. Mostramos que una receta simple, que incluye datos sintéticos basados en web y una ligera adaptación de la arquitectura LLaVA, es sorprendentemente efectiva para entrenar dichos modelos de fundamentación visual. Recopilamos el conjunto de datos más grande hasta ahora para la fundamentación visual de GUI, que contiene 10 millones de elementos de GUI y sus expresiones de referencia en más de 1.3 millones de capturas de pantalla, y lo utilizamos para entrenar UGround, un sólido modelo universal de fundamentación visual para agentes de GUI. Los resultados empíricos en seis pruebas que abarcan tres categorías (fundamentación, agente sin conexión y agente en línea) muestran que 1) UGround supera sustancialmente a los modelos de fundamentación visual existentes para agentes de GUI, hasta un 20% absoluto, y 2) los agentes con UGround superan a los agentes de vanguardia, a pesar de que los agentes existentes utilizan entradas adicionales basadas en texto mientras que el nuestro solo utiliza percepción visual. Estos resultados brindan un sólido respaldo a la viabilidad y promesas de los agentes de GUI que navegan el mundo digital como lo hacen los humanos.
English
Multimodal large language models (MLLMs) are transforming the capabilities of
graphical user interface (GUI) agents, facilitating their transition from
controlled simulations to complex, real-world applications across various
platforms. However, the effectiveness of these agents hinges on the robustness
of their grounding capability. Current GUI agents predominantly utilize
text-based representations such as HTML or accessibility trees, which, despite
their utility, often introduce noise, incompleteness, and increased
computational overhead. In this paper, we advocate a human-like embodiment for
GUI agents that perceive the environment entirely visually and directly take
pixel-level operations on the GUI. The key is visual grounding models that can
accurately map diverse referring expressions of GUI elements to their
coordinates on the GUI across different platforms. We show that a simple
recipe, which includes web-based synthetic data and slight adaptation of the
LLaVA architecture, is surprisingly effective for training such visual
grounding models. We collect the largest dataset for GUI visual grounding so
far, containing 10M GUI elements and their referring expressions over 1.3M
screenshots, and use it to train UGround, a strong universal visual grounding
model for GUI agents. Empirical results on six benchmarks spanning three
categories (grounding, offline agent, and online agent) show that 1) UGround
substantially outperforms existing visual grounding models for GUI agents, by
up to 20% absolute, and 2) agents with UGround outperform state-of-the-art
agents, despite the fact that existing agents use additional text-based input
while ours only uses visual perception. These results provide strong support
for the feasibility and promises of GUI agents that navigate the digital world
as humans do.Summary
AI-Generated Summary