FocusUI : Ancrage efficace de l'interface utilisateur via une sélection de tokens visuels préservant la position

papers.abstract

Les modèles vision-langage (VLM) ont démontré des performances remarquables dans les tâches de repérage d'interface utilisateur (UI), grâce à leur capacité à traiter des captures d'écran de résolution de plus en plus élevée. Cependant, les captures d'écran sont tokenisées en milliers de tokens visuels (environ 4700 pour une résolution 2K), entraînant une surcharge computationnelle significative et une dilution de l'attention. En revanche, les humains se concentrent généralement sur les régions d'intérêt lors de l'interaction avec une interface. Dans ce travail, nous pionnons la tâche de repérage d'UI efficace. Guidés par une analyse pratique des caractéristiques et défis de la tâche, nous proposons FocusUI, un cadre de repérage d'UI efficace qui sélectionne les patches les plus pertinents pour l'instruction tout en préservant la continuité positionnelle pour un repérage précis. FocusUI aborde deux défis clés : (1) L'élimination des tokens redondants dans l'encodage visuel. Nous construisons une supervision au niveau des patches en fusionnant un score conditionné par l'instruction avec un score basé sur des règles d'un graphe d'UI qui pondère négativement les grandes régions homogènes pour sélectionner des tokens visuels distincts et pertinents pour l'instruction. (2) La préservation de la continuité positionnelle lors de la sélection des tokens visuels. Nous constatons que les méthodes générales d'élagage de tokens visuels souffrent d'une dégradation sévère de la précision sur les tâches de repérage d'UI en raison de la rupture des informations positionnelles. Nous introduisons une nouvelle stratégie PosPad, qui compresse chaque séquence contiguë de tokens visuels supprimés en un marqueur spécial unique placé à l'index final de la séquence pour préserver la continuité positionnelle. Des expériences complètes sur quatre benchmarks de repérage démontrent que FocusUI surpasse les lignes de base spécifiques aux IUG. Sur le benchmark ScreenSpot-Pro, FocusUI-7B obtient une amélioration de performance de 3,7 % par rapport à GUI-Actor-7B. Même avec seulement 30 % de rétention de tokens visuels, FocusUI-7B ne baisse que de 3,2 % tout en atteignant une inférence jusqu'à 1,44 fois plus rapide et une mémoire GPU de pointe 17 % plus faible.

English

Vision-Language Models (VLMs) have shown remarkable performance in User Interface (UI) grounding tasks, driven by their ability to process increasingly high-resolution screenshots. However, screenshots are tokenized into thousands of visual tokens (e.g., about 4700 for 2K resolution), incurring significant computational overhead and diluting attention. In contrast, humans typically focus on regions of interest when interacting with UI. In this work, we pioneer the task of efficient UI grounding. Guided by practical analysis of the task's characteristics and challenges, we propose FocusUI, an efficient UI grounding framework that selects patches most relevant to the instruction while preserving positional continuity for precise grounding. FocusUI addresses two key challenges: (1) Eliminating redundant tokens in visual encoding. We construct patch-level supervision by fusing an instruction-conditioned score with a rule-based UI-graph score that down-weights large homogeneous regions to select distinct and instruction-relevant visual tokens. (2) Preserving positional continuity during visual token selection. We find that general visual token pruning methods suffer from severe accuracy degradation on UI grounding tasks due to broken positional information. We introduce a novel PosPad strategy, which compresses each contiguous sequence of dropped visual tokens into a single special marker placed at the sequence's last index to preserve positional continuity. Comprehensive experiments on four grounding benchmarks demonstrate that FocusUI surpasses GUI-specific baselines. On the ScreenSpot-Pro benchmark, FocusUI-7B achieves a performance improvement of 3.7% over GUI-Actor-7B. Even with only 30% visual token retention, FocusUI-7B drops by only 3.2% while achieving up to 1.44x faster inference and 17% lower peak GPU memory.

FocusUI : Ancrage efficace de l'interface utilisateur via une sélection de tokens visuels préservant la position

FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

papers.abstract

Support