Naviguer dans le monde numérique comme le font les humains : Ancrage visuel universel pour les agents d'interface utilisateur graphique
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents
October 7, 2024
Auteurs: Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su
cs.AI
Résumé
Les grands modèles de langage multimodaux (MLLM) transforment les capacités des agents d'interface utilisateur graphique (GUI), facilitant leur transition des simulations contrôlées aux applications réelles complexes sur différentes plateformes. Cependant, l'efficacité de ces agents dépend de la robustesse de leur capacité d'ancrage. Les agents GUI actuels utilisent principalement des représentations basées sur du texte telles que HTML ou des arbres d'accessibilité, qui, malgré leur utilité, introduisent souvent du bruit, une incomplétude et une surcharge computationnelle accrue. Dans cet article, nous préconisons une incarnation semblable à celle des humains pour les agents GUI qui perçoivent l'environnement entièrement de manière visuelle et effectuent directement des opérations au niveau des pixels sur l'interface utilisateur graphique. La clé réside dans les modèles d'ancrage visuel qui peuvent mapper avec précision les expressions de référence diverses des éléments GUI à leurs coordonnées sur l'interface graphique sur différentes plateformes. Nous montrons qu'une recette simple, comprenant des données synthétiques basées sur le web et une légère adaptation de l'architecture LLaVA, est étonnamment efficace pour entraîner de tels modèles d'ancrage visuel. Nous avons collecté le plus grand ensemble de données pour l'ancrage visuel GUI à ce jour, contenant 10 millions d'éléments GUI et leurs expressions de référence sur plus de 1,3 million de captures d'écran, et l'avons utilisé pour entraîner UGround, un modèle d'ancrage visuel universel solide pour les agents GUI. Les résultats empiriques sur six benchmarks couvrant trois catégories (ancrage, agent hors ligne et agent en ligne) montrent que 1) UGround surpasse nettement les modèles d'ancrage visuel existants pour les agents GUI, jusqu'à 20% absolus, et 2) les agents avec UGround surpassent les agents de pointe, malgré le fait que les agents existants utilisent une entrée basée sur du texte supplémentaire tandis que les nôtres utilisent uniquement la perception visuelle. Ces résultats soutiennent fortement la faisabilité et les promesses des agents GUI qui naviguent dans le monde numérique comme le font les humains.
English
Multimodal large language models (MLLMs) are transforming the capabilities of
graphical user interface (GUI) agents, facilitating their transition from
controlled simulations to complex, real-world applications across various
platforms. However, the effectiveness of these agents hinges on the robustness
of their grounding capability. Current GUI agents predominantly utilize
text-based representations such as HTML or accessibility trees, which, despite
their utility, often introduce noise, incompleteness, and increased
computational overhead. In this paper, we advocate a human-like embodiment for
GUI agents that perceive the environment entirely visually and directly take
pixel-level operations on the GUI. The key is visual grounding models that can
accurately map diverse referring expressions of GUI elements to their
coordinates on the GUI across different platforms. We show that a simple
recipe, which includes web-based synthetic data and slight adaptation of the
LLaVA architecture, is surprisingly effective for training such visual
grounding models. We collect the largest dataset for GUI visual grounding so
far, containing 10M GUI elements and their referring expressions over 1.3M
screenshots, and use it to train UGround, a strong universal visual grounding
model for GUI agents. Empirical results on six benchmarks spanning three
categories (grounding, offline agent, and online agent) show that 1) UGround
substantially outperforms existing visual grounding models for GUI agents, by
up to 20% absolute, and 2) agents with UGround outperform state-of-the-art
agents, despite the fact that existing agents use additional text-based input
while ours only uses visual perception. These results provide strong support
for the feasibility and promises of GUI agents that navigate the digital world
as humans do.Summary
AI-Generated Summary