Lire partout où l'on pointe : Lecture de l'interface graphique avec prise en compte de la mise en page grâce à l'ancrage Tree-of-Lens

papers.abstract

Les interfaces graphiques (GUIs) sont centrales dans notre interaction avec les appareils numériques. Récemment, des efforts croissants ont été déployés pour construire des modèles pour diverses tâches de compréhension des GUIs. Cependant, ces efforts négligent largement une tâche importante liée aux GUIs : la lecture d'écran basée sur des points indiqués par l'utilisateur, que nous nommons la tâche de Pointage et Lecture d'Écran (Screen Point-and-Read, SPR). Cette tâche est principalement gérée par des outils rigides de lecture d'écran accessibles, qui ont grandement besoin de nouveaux modèles inspirés par les avancées des Modèles de Langage Multimodaux de Grande Taille (Multimodal Large Language Models, MLLMs). Dans cet article, nous proposons un agent Arbre-de-Lentille (Tree-of-Lens, ToL), utilisant un nouveau mécanisme d'ancrage ToL, pour aborder la tâche SPR. À partir des coordonnées du point d'entrée et de la capture d'écran correspondante de la GUI, notre agent ToL construit un Arbre de Mise en Page Hiérarchique. Sur la base de cet arbre, notre agent ToL comprend non seulement le contenu de la zone indiquée, mais exprime également la mise en page et les relations spatiales entre les éléments. Ces informations de mise en page sont cruciales pour interpréter avec précision les informations à l'écran, ce qui distingue notre agent ToL des autres outils de lecture d'écran. Nous évaluons également minutieusement l'agent ToL par rapport à d'autres références sur un nouveau benchmark SPR proposé, qui inclut des GUIs provenant de systèmes mobiles, web et d'exploitation. Enfin et surtout, nous testons l'agent ToL sur des tâches de navigation dans des GUIs mobiles, démontrant son utilité pour identifier les actions incorrectes le long des trajectoires d'exécution de l'agent. Code et données : screen-point-and-read.github.io

English

Graphical User Interfaces (GUIs) are central to our interaction with digital devices. Recently, growing efforts have been made to build models for various GUI understanding tasks. However, these efforts largely overlook an important GUI-referring task: screen reading based on user-indicated points, which we name the Screen Point-and-Read (SPR) task. This task is predominantly handled by rigid accessible screen reading tools, in great need of new models driven by advancements in Multimodal Large Language Models (MLLMs). In this paper, we propose a Tree-of-Lens (ToL) agent, utilizing a novel ToL grounding mechanism, to address the SPR task. Based on the input point coordinate and the corresponding GUI screenshot, our ToL agent constructs a Hierarchical Layout Tree. Based on the tree, our ToL agent not only comprehends the content of the indicated area but also articulates the layout and spatial relationships between elements. Such layout information is crucial for accurately interpreting information on the screen, distinguishing our ToL agent from other screen reading tools. We also thoroughly evaluate the ToL agent against other baselines on a newly proposed SPR benchmark, which includes GUIs from mobile, web, and operating systems. Last but not least, we test the ToL agent on mobile GUI navigation tasks, demonstrating its utility in identifying incorrect actions along the path of agent execution trajectories. Code and data: screen-point-and-read.github.io

Lire partout où l'on pointe : Lecture de l'interface graphique avec prise en compte de la mise en page grâce à l'ancrage Tree-of-Lens

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

papers.abstract

Support