Leer en cualquier lugar señalado: Lectura de pantallas GUI con conciencia del diseño mediante el enfoque Tree-of-Lens Grounding
Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding
June 27, 2024
Autores: Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang
cs.AI
Resumen
Las Interfaces Gráficas de Usuario (GUIs) son fundamentales para nuestra interacción con dispositivos digitales. Recientemente, se han realizado crecientes esfuerzos para construir modelos destinados a diversas tareas de comprensión de GUIs. Sin embargo, estos esfuerzos en gran medida pasan por alto una importante tarea relacionada con las GUIs: la lectura de pantallas basada en puntos indicados por el usuario, a la que denominamos la tarea de Punto-y-Lee en Pantalla (Screen Point-and-Read, SPR). Esta tarea es predominantemente manejada por herramientas rígidas de lectura accesible de pantallas, que necesitan urgentemente nuevos modelos impulsados por avances en Modelos de Lenguaje Multimodales de Gran Escala (Multimodal Large Language Models, MLLMs). En este artículo, proponemos un agente de Árbol-de-Lentes (Tree-of-Lens, ToL), que utiliza un novedoso mecanismo de anclaje ToL, para abordar la tarea SPR. Basándose en la coordenada del punto de entrada y la captura de pantalla correspondiente de la GUI, nuestro agente ToL construye un Árbol de Diseño Jerárquico. A partir de este árbol, nuestro agente ToL no solo comprende el contenido del área indicada, sino que también articula el diseño y las relaciones espaciales entre los elementos. Esta información de diseño es crucial para interpretar con precisión la información en la pantalla, lo que distingue a nuestro agente ToL de otras herramientas de lectura de pantalla. También evaluamos exhaustivamente el agente ToL frente a otras líneas de base en un nuevo punto de referencia SPR propuesto, que incluye GUIs de sistemas móviles, web y de operación. Por último, pero no menos importante, probamos el agente ToL en tareas de navegación de GUIs móviles, demostrando su utilidad para identificar acciones incorrectas a lo largo de la trayectoria de ejecución del agente. Código y datos: screen-point-and-read.github.io
English
Graphical User Interfaces (GUIs) are central to our interaction with digital
devices. Recently, growing efforts have been made to build models for various
GUI understanding tasks. However, these efforts largely overlook an important
GUI-referring task: screen reading based on user-indicated points, which we
name the Screen Point-and-Read (SPR) task. This task is predominantly handled
by rigid accessible screen reading tools, in great need of new models driven by
advancements in Multimodal Large Language Models (MLLMs). In this paper, we
propose a Tree-of-Lens (ToL) agent, utilizing a novel ToL grounding mechanism,
to address the SPR task. Based on the input point coordinate and the
corresponding GUI screenshot, our ToL agent constructs a Hierarchical Layout
Tree. Based on the tree, our ToL agent not only comprehends the content of the
indicated area but also articulates the layout and spatial relationships
between elements. Such layout information is crucial for accurately
interpreting information on the screen, distinguishing our ToL agent from other
screen reading tools. We also thoroughly evaluate the ToL agent against other
baselines on a newly proposed SPR benchmark, which includes GUIs from mobile,
web, and operating systems. Last but not least, we test the ToL agent on mobile
GUI navigation tasks, demonstrating its utility in identifying incorrect
actions along the path of agent execution trajectories. Code and data:
screen-point-and-read.github.ioSummary
AI-Generated Summary