FocusUI: Interface do Utilizador Eficiente através de Seleção de Tokens Visuais com Preservação Posicional

Resumo

Os Modelos Visão-Linguagem (VLMs) têm demonstrado desempenho notável em tarefas de ancoragem em Interface de Utilizador (UI), impulsionados pela sua capacidade de processar capturas de ecrã de resolução cada vez mais alta. No entanto, as capturas de ecrã são tokenizadas em milhares de *tokens* visuais (por exemplo, cerca de 4700 para resolução 2K), incorrendo em sobrecarga computacional significativa e diluindo a atenção. Em contraste, os humanos normalmente concentram-se em regiões de interesse ao interagir com uma UI. Neste trabalho, somos pioneiros na tarefa de ancoragem eficiente em UI. Guiados por uma análise prática das características e desafios da tarefa, propomos o FocusUI, um *framework* de ancoragem em UI eficiente que seleciona os *patches* mais relevantes para a instrução, preservando ao mesmo tempo a continuidade posicional para uma ancoragem precisa. O FocusUI aborda dois desafios principais: (1) Eliminar *tokens* redundantes na codificação visual. Construímos supervisão a nível de *patch* fundindo uma pontuação condicionada pela instrução com uma pontuação baseada em regras de um grafo de UI que reduz o peso de grandes regiões homogéneas para selecionar *tokens* visuais distintos e relevantes para a instrução. (2) Preservar a continuidade posicional durante a seleção de *tokens* visuais. Descobrimos que os métodos gerais de poda de *tokens* visuais sofrem de uma degradação severa de precisão em tarefas de ancoragem em UI devido à quebra de informação posicional. Introduzimos uma nova estratégia PosPad, que comprime cada sequência contígua de *tokens* visuais descartados num único marcador especial colocado no último índice da sequência para preservar a continuidade posicional. Experiências abrangentes em quatro *benchmarks* de ancoragem demonstram que o FocusUI supera as linhas de base específicas para GUI. No *benchmark* ScreenSpot-Pro, o FocusUI-7B alcança uma melhoria de desempenho de 3,7% em relação ao GUI-Actor-7B. Mesmo com apenas 30% de retenção de *tokens* visuais, o FocusUI-7B decai apenas 3,2%, enquanto alcança uma inferência até 1,44x mais rápida e um pico de memória GPU 17% menor.

English

Vision-Language Models (VLMs) have shown remarkable performance in User Interface (UI) grounding tasks, driven by their ability to process increasingly high-resolution screenshots. However, screenshots are tokenized into thousands of visual tokens (e.g., about 4700 for 2K resolution), incurring significant computational overhead and diluting attention. In contrast, humans typically focus on regions of interest when interacting with UI. In this work, we pioneer the task of efficient UI grounding. Guided by practical analysis of the task's characteristics and challenges, we propose FocusUI, an efficient UI grounding framework that selects patches most relevant to the instruction while preserving positional continuity for precise grounding. FocusUI addresses two key challenges: (1) Eliminating redundant tokens in visual encoding. We construct patch-level supervision by fusing an instruction-conditioned score with a rule-based UI-graph score that down-weights large homogeneous regions to select distinct and instruction-relevant visual tokens. (2) Preserving positional continuity during visual token selection. We find that general visual token pruning methods suffer from severe accuracy degradation on UI grounding tasks due to broken positional information. We introduce a novel PosPad strategy, which compresses each contiguous sequence of dropped visual tokens into a single special marker placed at the sequence's last index to preserve positional continuity. Comprehensive experiments on four grounding benchmarks demonstrate that FocusUI surpasses GUI-specific baselines. On the ScreenSpot-Pro benchmark, FocusUI-7B achieves a performance improvement of 3.7% over GUI-Actor-7B. Even with only 30% visual token retention, FocusUI-7B drops by only 3.2% while achieving up to 1.44x faster inference and 17% lower peak GPU memory.

FocusUI: Interface do Utilizador Eficiente através de Seleção de Tokens Visuais com Preservação Posicional

FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

Resumo

Support