FocusUI: Interfaz de Usuario Eficiente mediante Selección de Tokens Visuales con Preservación de Posición

Resumen

Los Modelos de Visión y Lenguaje (VLMs) han demostrado un rendimiento notable en tareas de localización en Interfaces de Usuario (UI), impulsados por su capacidad para procesar capturas de pantalla de resolución cada vez más alta. Sin embargo, las capturas de pantalla se tokenizan en miles de tokens visuales (por ejemplo, unos 4700 para resolución 2K), lo que conlleva una sobrecarga computacional significativa y diluye la atención. Por el contrario, los humanos suelen centrarse en regiones de interés al interactuar con una UI. En este trabajo, somos pioneros en la tarea de localización eficiente en UI. Guiados por un análisis práctico de las características y desafíos de la tarea, proponemos FocusUI, un marco de localización en UI eficiente que selecciona los parches más relevantes para la instrucción preservando al mismo tiempo la continuidad posicional para una localización precisa. FocusUI aborda dos desafíos clave: (1) Eliminar tokens redundantes en la codificación visual. Construimos una supervisión a nivel de parche fusionando una puntuación condicionada por la instrucción con una puntuación basada en reglas de un grafo de UI que reduce el peso de las grandes regiones homogéneas para seleccionar tokens visuales distintos y relevantes para la instrucción. (2) Preservar la continuidad posicional durante la selección de tokens visuales. Descubrimos que los métodos generales de poda de tokens visuales sufren una grave degradación de la precisión en tareas de localización en UI debido a la ruptura de la información posicional. Introducimos una novedosa estrategia llamada PosPad, que comprime cada secuencia contigua de tokens visuales descartados en un único marcador especial colocado en el último índice de la secuencia para preservar la continuidad posicional. Experimentos exhaustivos en cuatro benchmarks de localización demuestran que FocusUI supera a las líneas base específicas para GUI. En el benchmark ScreenSpot-Pro, FocusUI-7B logra una mejora de rendimiento del 3.7% sobre GUI-Actor-7B. Incluso con solo un 30% de retención de tokens visuales, FocusUI-7B solo disminuye un 3.2% mientras logra una inferencia hasta 1.44 veces más rápida y un 17% menos de memoria GPU máxima.

English

Vision-Language Models (VLMs) have shown remarkable performance in User Interface (UI) grounding tasks, driven by their ability to process increasingly high-resolution screenshots. However, screenshots are tokenized into thousands of visual tokens (e.g., about 4700 for 2K resolution), incurring significant computational overhead and diluting attention. In contrast, humans typically focus on regions of interest when interacting with UI. In this work, we pioneer the task of efficient UI grounding. Guided by practical analysis of the task's characteristics and challenges, we propose FocusUI, an efficient UI grounding framework that selects patches most relevant to the instruction while preserving positional continuity for precise grounding. FocusUI addresses two key challenges: (1) Eliminating redundant tokens in visual encoding. We construct patch-level supervision by fusing an instruction-conditioned score with a rule-based UI-graph score that down-weights large homogeneous regions to select distinct and instruction-relevant visual tokens. (2) Preserving positional continuity during visual token selection. We find that general visual token pruning methods suffer from severe accuracy degradation on UI grounding tasks due to broken positional information. We introduce a novel PosPad strategy, which compresses each contiguous sequence of dropped visual tokens into a single special marker placed at the sequence's last index to preserve positional continuity. Comprehensive experiments on four grounding benchmarks demonstrate that FocusUI surpasses GUI-specific baselines. On the ScreenSpot-Pro benchmark, FocusUI-7B achieves a performance improvement of 3.7% over GUI-Actor-7B. Even with only 30% visual token retention, FocusUI-7B drops by only 3.2% while achieving up to 1.44x faster inference and 17% lower peak GPU memory.

FocusUI: Interfaz de Usuario Eficiente mediante Selección de Tokens Visuales con Preservación de Posición

FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

Resumen

Support