Überall lesen: Layout-bewusstes GUI-Bildschirmlesen mit Tree-of-Lens-Verankerung

papers.abstract

Grafische Benutzeroberflächen (GUIs) sind zentral für unsere Interaktion mit digitalen Geräten. In letzter Zeit wurden zunehmende Anstrengungen unternommen, um Modelle für verschiedene GUI-Verständnisaufgaben zu entwickeln. Diese Bemühungen vernachlässigen jedoch weitgehend eine wichtige GUI-bezogene Aufgabe: das Bildschirmlesen basierend auf vom Benutzer angegebenen Punkten, die wir als Bildschirmpunkt-und-Lese (SPR) Aufgabe bezeichnen. Diese Aufgabe wird hauptsächlich von starren zugänglichen Bildschirmlesewerkzeugen behandelt, die dringend neue Modelle benötigen, die von Fortschritten in Multimodalen Großen Sprachmodellen (MLLMs) angetrieben werden. In diesem Artikel schlagen wir einen Tree-of-Lens (ToL) Agenten vor, der einen neuartigen ToL-Verankerungsmechanismus nutzt, um die SPR-Aufgabe anzugehen. Basierend auf den Eingabepunktkoordinaten und dem entsprechenden GUI-Screenshot konstruiert unser ToL-Agent einen Hierarchischen Layout-Baum. Basierend auf dem Baum versteht unser ToL-Agent nicht nur den Inhalt des angezeigten Bereichs, sondern artikuliert auch das Layout und die räumlichen Beziehungen zwischen den Elementen. Solche Layout-Informationen sind entscheidend für die genaue Interpretation von Informationen auf dem Bildschirm und unterscheiden unseren ToL-Agenten von anderen Bildschirmlesewerkzeugen. Wir evaluieren den ToL-Agenten auch gründlich gegen andere Baselines anhand eines neu vorgeschlagenen SPR-Benchmarks, der GUIs von mobilen, Web- und Betriebssystemen umfasst. Zu guter Letzt testen wir den ToL-Agenten bei mobilen GUI-Navigationsaufgaben und zeigen seine Nützlichkeit bei der Identifizierung falscher Aktionen entlang der Pfade der Agentenausführung. Code und Daten: screen-point-and-read.github.io.

English

Graphical User Interfaces (GUIs) are central to our interaction with digital devices. Recently, growing efforts have been made to build models for various GUI understanding tasks. However, these efforts largely overlook an important GUI-referring task: screen reading based on user-indicated points, which we name the Screen Point-and-Read (SPR) task. This task is predominantly handled by rigid accessible screen reading tools, in great need of new models driven by advancements in Multimodal Large Language Models (MLLMs). In this paper, we propose a Tree-of-Lens (ToL) agent, utilizing a novel ToL grounding mechanism, to address the SPR task. Based on the input point coordinate and the corresponding GUI screenshot, our ToL agent constructs a Hierarchical Layout Tree. Based on the tree, our ToL agent not only comprehends the content of the indicated area but also articulates the layout and spatial relationships between elements. Such layout information is crucial for accurately interpreting information on the screen, distinguishing our ToL agent from other screen reading tools. We also thoroughly evaluate the ToL agent against other baselines on a newly proposed SPR benchmark, which includes GUIs from mobile, web, and operating systems. Last but not least, we test the ToL agent on mobile GUI navigation tasks, demonstrating its utility in identifying incorrect actions along the path of agent execution trajectories. Code and data: screen-point-and-read.github.io

Überall lesen: Layout-bewusstes GUI-Bildschirmlesen mit Tree-of-Lens-Verankerung

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

papers.abstract

Support