ChatPaper.aiChatPaper

Navegando no Mundo Digital como Humanos: Fundamentação Visual Universal para Agentes de Interface Gráfica do Usuário.

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

October 7, 2024
Autores: Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su
cs.AI

Resumo

Os modelos de linguagem multimodais de grande escala (MLLMs) estão transformando as capacidades dos agentes de interface gráfica do usuário (GUI), facilitando sua transição de simulações controladas para aplicações complexas do mundo real em várias plataformas. No entanto, a eficácia desses agentes depende da robustez de sua capacidade de fundamentação. Os agentes de GUI atuais utilizam predominantemente representações baseadas em texto, como HTML ou árvores de acessibilidade, que, apesar de sua utilidade, frequentemente introduzem ruído, incompletude e aumento da carga computacional. Neste artigo, defendemos uma incorporação semelhante à humana para agentes de GUI que percebem o ambiente inteiramente visualmente e realizam operações em nível de pixel diretamente na GUI. A chave são os modelos de fundamentação visual que podem mapear com precisão diversas expressões de referência de elementos de GUI para suas coordenadas na GUI em diferentes plataformas. Mostramos que uma abordagem simples, que inclui dados sintéticos baseados na web e uma adaptação leve da arquitetura LLaVA, é surpreendentemente eficaz para treinar tais modelos de fundamentação visual. Coletamos o maior conjunto de dados para fundamentação visual de GUI até o momento, contendo 10M elementos de GUI e suas expressões de referência em mais de 1.3M capturas de tela, e o utilizamos para treinar o UGround, um modelo de fundamentação visual universal robusto para agentes de GUI. Resultados empíricos em seis benchmarks abrangendo três categorias (fundamentação, agente offline e agente online) mostram que 1) o UGround supera substancialmente os modelos de fundamentação visual existentes para agentes de GUI, em até 20% absoluto, e 2) agentes com UGround superam agentes de ponta, apesar de os agentes existentes utilizarem entrada adicional baseada em texto, enquanto o nosso utiliza apenas percepção visual. Esses resultados fornecem um forte suporte para a viabilidade e promessas de agentes de GUI que navegam pelo mundo digital como os humanos.
English
Multimodal large language models (MLLMs) are transforming the capabilities of graphical user interface (GUI) agents, facilitating their transition from controlled simulations to complex, real-world applications across various platforms. However, the effectiveness of these agents hinges on the robustness of their grounding capability. Current GUI agents predominantly utilize text-based representations such as HTML or accessibility trees, which, despite their utility, often introduce noise, incompleteness, and increased computational overhead. In this paper, we advocate a human-like embodiment for GUI agents that perceive the environment entirely visually and directly take pixel-level operations on the GUI. The key is visual grounding models that can accurately map diverse referring expressions of GUI elements to their coordinates on the GUI across different platforms. We show that a simple recipe, which includes web-based synthetic data and slight adaptation of the LLaVA architecture, is surprisingly effective for training such visual grounding models. We collect the largest dataset for GUI visual grounding so far, containing 10M GUI elements and their referring expressions over 1.3M screenshots, and use it to train UGround, a strong universal visual grounding model for GUI agents. Empirical results on six benchmarks spanning three categories (grounding, offline agent, and online agent) show that 1) UGround substantially outperforms existing visual grounding models for GUI agents, by up to 20% absolute, and 2) agents with UGround outperform state-of-the-art agents, despite the fact that existing agents use additional text-based input while ours only uses visual perception. These results provide strong support for the feasibility and promises of GUI agents that navigate the digital world as humans do.

Summary

AI-Generated Summary

PDF192November 16, 2024