Navegando el Mundo Digital como lo Hacen los Humanos: Fundamentos Visuales Universales para Agentes de Interfaz Gráfica de Usuario (GUI)

Resumen

Los modelos de lenguaje multimodales grandes (MLLMs) están transformando las capacidades de los agentes de interfaz gráfica de usuario (GUI), facilitando su transición desde simulaciones controladas hasta aplicaciones complejas del mundo real en diversas plataformas. Sin embargo, la efectividad de estos agentes depende de la solidez de su capacidad de fundamentación. Los agentes de GUI actuales utilizan predominantemente representaciones basadas en texto como HTML o árboles de accesibilidad, que, a pesar de su utilidad, a menudo introducen ruido, incompletitud y una mayor carga computacional. En este documento abogamos por una encarnación similar a la humana para los agentes de GUI que perciben el entorno de manera totalmente visual y realizan operaciones a nivel de píxel directamente en la GUI. La clave son los modelos de fundamentación visual que pueden mapear con precisión diversas expresiones de referencia de elementos de GUI a sus coordenadas en la GUI en diferentes plataformas. Mostramos que una receta simple, que incluye datos sintéticos basados en web y una ligera adaptación de la arquitectura LLaVA, es sorprendentemente efectiva para entrenar dichos modelos de fundamentación visual. Recopilamos el conjunto de datos más grande hasta ahora para la fundamentación visual de GUI, que contiene 10 millones de elementos de GUI y sus expresiones de referencia en más de 1.3 millones de capturas de pantalla, y lo utilizamos para entrenar UGround, un sólido modelo universal de fundamentación visual para agentes de GUI. Los resultados empíricos en seis pruebas que abarcan tres categorías (fundamentación, agente sin conexión y agente en línea) muestran que 1) UGround supera sustancialmente a los modelos de fundamentación visual existentes para agentes de GUI, hasta un 20% absoluto, y 2) los agentes con UGround superan a los agentes de vanguardia, a pesar de que los agentes existentes utilizan entradas adicionales basadas en texto mientras que el nuestro solo utiliza percepción visual. Estos resultados brindan un sólido respaldo a la viabilidad y promesas de los agentes de GUI que navegan el mundo digital como lo hacen los humanos.

English

Multimodal large language models (MLLMs) are transforming the capabilities of graphical user interface (GUI) agents, facilitating their transition from controlled simulations to complex, real-world applications across various platforms. However, the effectiveness of these agents hinges on the robustness of their grounding capability. Current GUI agents predominantly utilize text-based representations such as HTML or accessibility trees, which, despite their utility, often introduce noise, incompleteness, and increased computational overhead. In this paper, we advocate a human-like embodiment for GUI agents that perceive the environment entirely visually and directly take pixel-level operations on the GUI. The key is visual grounding models that can accurately map diverse referring expressions of GUI elements to their coordinates on the GUI across different platforms. We show that a simple recipe, which includes web-based synthetic data and slight adaptation of the LLaVA architecture, is surprisingly effective for training such visual grounding models. We collect the largest dataset for GUI visual grounding so far, containing 10M GUI elements and their referring expressions over 1.3M screenshots, and use it to train UGround, a strong universal visual grounding model for GUI agents. Empirical results on six benchmarks spanning three categories (grounding, offline agent, and online agent) show that 1) UGround substantially outperforms existing visual grounding models for GUI agents, by up to 20% absolute, and 2) agents with UGround outperform state-of-the-art agents, despite the fact that existing agents use additional text-based input while ours only uses visual perception. These results provide strong support for the feasibility and promises of GUI agents that navigate the digital world as humans do.

Navegando el Mundo Digital como lo Hacen los Humanos: Fundamentos Visuales Universales para Agentes de Interfaz Gráfica de Usuario (GUI)

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

Resumen

Support