FocusUI: Selezione Efficiente di Token Visivi con Preservazione della Posizione per il Grounding dell'Interfaccia Utente

Abstract

I modelli visione-linguaggio (VLM) hanno dimostrato prestazioni notevoli nelle attività di grounding dell'interfaccia utente (UI), grazie alla loro capacità di elaborare screenshot a risoluzione sempre più elevata. Tuttavia, gli screenshot vengono tokenizzati in migliaia di token visivi (ad esempio, circa 4700 per una risoluzione 2K), comportando un sovraccarico computazionale significativo e diluendo l'attenzione. Al contrario, gli esseri umani si concentrano tipicamente sulle regioni di interesse durante l'interazione con l'UI. In questo lavoro, siamo pionieri nel compito del grounding efficiente dell'UI. Guidati da un'analisi pratica delle caratteristiche e delle sfide del compito, proponiamo FocusUI, un framework efficiente per il grounding dell'UI che seleziona i patch più rilevanti per l'istruzione preservando al contempo la continuità posizionale per un grounding preciso. FocusUI affronta due sfide chiave: (1) Eliminare i token ridondanti nella codifica visiva. Costruiamo una supervisione a livello di patch fondendo un punggio condizionato all'istruzione con un punggio basato su regole derivato da un grafo-UI che riduce il peso di grandi regioni omogenee per selezionare token visivi distinti e rilevanti per l'istruzione. (2) Preservare la continuità posizionale durante la selezione dei token visivi. Abbiamo riscontrato che i metodi generali di pruning dei token visivi soffrono di una grave degradazione dell'accuratezza nelle attività di grounding dell'UI a causa della rottura delle informazioni posizionali. Introduciamo una nuova strategia PosPad, che comprime ogni sequenza contigua di token visivi scartati in un singolo marcatore speciale posizionato all'ultimo indice della sequenza per preservare la continuità posizionale. Esperimenti completi su quattro benchmark di grounding dimostrano che FocusUI supera i baseline specifici per GUI. Sul benchmark ScreenSpot-Pro, FocusUI-7B raggiunge un miglioramento delle prestazioni del 3,7% rispetto a GUI-Actor-7B. Anche con solo il 30% di ritenzione dei token visivi, FocusUI-7B diminuisce di appena il 3,2% pur ottenendo un'inferenza fino a 1,44 volte più veloce e un picco di memoria GPU inferiore del 17%.

English

Vision-Language Models (VLMs) have shown remarkable performance in User Interface (UI) grounding tasks, driven by their ability to process increasingly high-resolution screenshots. However, screenshots are tokenized into thousands of visual tokens (e.g., about 4700 for 2K resolution), incurring significant computational overhead and diluting attention. In contrast, humans typically focus on regions of interest when interacting with UI. In this work, we pioneer the task of efficient UI grounding. Guided by practical analysis of the task's characteristics and challenges, we propose FocusUI, an efficient UI grounding framework that selects patches most relevant to the instruction while preserving positional continuity for precise grounding. FocusUI addresses two key challenges: (1) Eliminating redundant tokens in visual encoding. We construct patch-level supervision by fusing an instruction-conditioned score with a rule-based UI-graph score that down-weights large homogeneous regions to select distinct and instruction-relevant visual tokens. (2) Preserving positional continuity during visual token selection. We find that general visual token pruning methods suffer from severe accuracy degradation on UI grounding tasks due to broken positional information. We introduce a novel PosPad strategy, which compresses each contiguous sequence of dropped visual tokens into a single special marker placed at the sequence's last index to preserve positional continuity. Comprehensive experiments on four grounding benchmarks demonstrate that FocusUI surpasses GUI-specific baselines. On the ScreenSpot-Pro benchmark, FocusUI-7B achieves a performance improvement of 3.7% over GUI-Actor-7B. Even with only 30% visual token retention, FocusUI-7B drops by only 3.2% while achieving up to 1.44x faster inference and 17% lower peak GPU memory.

FocusUI: Selezione Efficiente di Token Visivi con Preservazione della Posizione per il Grounding dell'Interfaccia Utente

FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

Abstract

Support