Leer en cualquier lugar señalado: Lectura de pantallas GUI con conciencia del diseño mediante el enfoque Tree-of-Lens Grounding

Resumen

Las Interfaces Gráficas de Usuario (GUIs) son fundamentales para nuestra interacción con dispositivos digitales. Recientemente, se han realizado crecientes esfuerzos para construir modelos destinados a diversas tareas de comprensión de GUIs. Sin embargo, estos esfuerzos en gran medida pasan por alto una importante tarea relacionada con las GUIs: la lectura de pantallas basada en puntos indicados por el usuario, a la que denominamos la tarea de Punto-y-Lee en Pantalla (Screen Point-and-Read, SPR). Esta tarea es predominantemente manejada por herramientas rígidas de lectura accesible de pantallas, que necesitan urgentemente nuevos modelos impulsados por avances en Modelos de Lenguaje Multimodales de Gran Escala (Multimodal Large Language Models, MLLMs). En este artículo, proponemos un agente de Árbol-de-Lentes (Tree-of-Lens, ToL), que utiliza un novedoso mecanismo de anclaje ToL, para abordar la tarea SPR. Basándose en la coordenada del punto de entrada y la captura de pantalla correspondiente de la GUI, nuestro agente ToL construye un Árbol de Diseño Jerárquico. A partir de este árbol, nuestro agente ToL no solo comprende el contenido del área indicada, sino que también articula el diseño y las relaciones espaciales entre los elementos. Esta información de diseño es crucial para interpretar con precisión la información en la pantalla, lo que distingue a nuestro agente ToL de otras herramientas de lectura de pantalla. También evaluamos exhaustivamente el agente ToL frente a otras líneas de base en un nuevo punto de referencia SPR propuesto, que incluye GUIs de sistemas móviles, web y de operación. Por último, pero no menos importante, probamos el agente ToL en tareas de navegación de GUIs móviles, demostrando su utilidad para identificar acciones incorrectas a lo largo de la trayectoria de ejecución del agente. Código y datos: screen-point-and-read.github.io

English

Graphical User Interfaces (GUIs) are central to our interaction with digital devices. Recently, growing efforts have been made to build models for various GUI understanding tasks. However, these efforts largely overlook an important GUI-referring task: screen reading based on user-indicated points, which we name the Screen Point-and-Read (SPR) task. This task is predominantly handled by rigid accessible screen reading tools, in great need of new models driven by advancements in Multimodal Large Language Models (MLLMs). In this paper, we propose a Tree-of-Lens (ToL) agent, utilizing a novel ToL grounding mechanism, to address the SPR task. Based on the input point coordinate and the corresponding GUI screenshot, our ToL agent constructs a Hierarchical Layout Tree. Based on the tree, our ToL agent not only comprehends the content of the indicated area but also articulates the layout and spatial relationships between elements. Such layout information is crucial for accurately interpreting information on the screen, distinguishing our ToL agent from other screen reading tools. We also thoroughly evaluate the ToL agent against other baselines on a newly proposed SPR benchmark, which includes GUIs from mobile, web, and operating systems. Last but not least, we test the ToL agent on mobile GUI navigation tasks, demonstrating its utility in identifying incorrect actions along the path of agent execution trajectories. Code and data: screen-point-and-read.github.io

Leer en cualquier lugar señalado: Lectura de pantallas GUI con conciencia del diseño mediante el enfoque Tree-of-Lens Grounding

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

Resumen

Support