Naviguer dans le monde numérique comme le font les humains : Ancrage visuel universel pour les agents d'interface utilisateur graphique

papers.abstract

Les grands modèles de langage multimodaux (MLLM) transforment les capacités des agents d'interface utilisateur graphique (GUI), facilitant leur transition des simulations contrôlées aux applications réelles complexes sur différentes plateformes. Cependant, l'efficacité de ces agents dépend de la robustesse de leur capacité d'ancrage. Les agents GUI actuels utilisent principalement des représentations basées sur du texte telles que HTML ou des arbres d'accessibilité, qui, malgré leur utilité, introduisent souvent du bruit, une incomplétude et une surcharge computationnelle accrue. Dans cet article, nous préconisons une incarnation semblable à celle des humains pour les agents GUI qui perçoivent l'environnement entièrement de manière visuelle et effectuent directement des opérations au niveau des pixels sur l'interface utilisateur graphique. La clé réside dans les modèles d'ancrage visuel qui peuvent mapper avec précision les expressions de référence diverses des éléments GUI à leurs coordonnées sur l'interface graphique sur différentes plateformes. Nous montrons qu'une recette simple, comprenant des données synthétiques basées sur le web et une légère adaptation de l'architecture LLaVA, est étonnamment efficace pour entraîner de tels modèles d'ancrage visuel. Nous avons collecté le plus grand ensemble de données pour l'ancrage visuel GUI à ce jour, contenant 10 millions d'éléments GUI et leurs expressions de référence sur plus de 1,3 million de captures d'écran, et l'avons utilisé pour entraîner UGround, un modèle d'ancrage visuel universel solide pour les agents GUI. Les résultats empiriques sur six benchmarks couvrant trois catégories (ancrage, agent hors ligne et agent en ligne) montrent que 1) UGround surpasse nettement les modèles d'ancrage visuel existants pour les agents GUI, jusqu'à 20% absolus, et 2) les agents avec UGround surpassent les agents de pointe, malgré le fait que les agents existants utilisent une entrée basée sur du texte supplémentaire tandis que les nôtres utilisent uniquement la perception visuelle. Ces résultats soutiennent fortement la faisabilité et les promesses des agents GUI qui naviguent dans le monde numérique comme le font les humains.

English

Multimodal large language models (MLLMs) are transforming the capabilities of graphical user interface (GUI) agents, facilitating their transition from controlled simulations to complex, real-world applications across various platforms. However, the effectiveness of these agents hinges on the robustness of their grounding capability. Current GUI agents predominantly utilize text-based representations such as HTML or accessibility trees, which, despite their utility, often introduce noise, incompleteness, and increased computational overhead. In this paper, we advocate a human-like embodiment for GUI agents that perceive the environment entirely visually and directly take pixel-level operations on the GUI. The key is visual grounding models that can accurately map diverse referring expressions of GUI elements to their coordinates on the GUI across different platforms. We show that a simple recipe, which includes web-based synthetic data and slight adaptation of the LLaVA architecture, is surprisingly effective for training such visual grounding models. We collect the largest dataset for GUI visual grounding so far, containing 10M GUI elements and their referring expressions over 1.3M screenshots, and use it to train UGround, a strong universal visual grounding model for GUI agents. Empirical results on six benchmarks spanning three categories (grounding, offline agent, and online agent) show that 1) UGround substantially outperforms existing visual grounding models for GUI agents, by up to 20% absolute, and 2) agents with UGround outperform state-of-the-art agents, despite the fact that existing agents use additional text-based input while ours only uses visual perception. These results provide strong support for the feasibility and promises of GUI agents that navigate the digital world as humans do.

Naviguer dans le monde numérique comme le font les humains : Ancrage visuel universel pour les agents d'interface utilisateur graphique

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

papers.abstract

Support