ChatPaper.aiChatPaper

FocusUI: Efficiënte UI-gronding via Positiebewarende Visuele Tokenselectie

FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

January 7, 2026
Auteurs: Mingyu Ouyang, Kevin Qinghong Lin, Mike Zheng Shou, Hwee Tou Ng
cs.AI

Samenvatting

Vision-Language Models (VLMs) hebben opmerkelijke prestaties getoond in User Interface (UI)-groundingtaken, aangedreven door hun vermogen om screenshots met steeds hogere resolutie te verwerken. Screenshots worden echter getokeniseerd in duizenden visuele tokens (bijvoorbeeld ongeveer 4700 voor 2K-resolutie), wat aanzienlijke rekenkosten met zich meebrengt en de aandacht verdunt. Mensen richten zich daarentegen meestal op interessegebieden bij interactie met een UI. In dit werk pionieren we met de taak van efficiënte UI-grounding. Geleid door een praktische analyse van de kenmerken en uitdagingen van de taak, stellen we FocusUI voor, een efficiënt UI-groundingraamwerk dat de patches selecteert die het meest relevant zijn voor de instructie, terwijl positionele continuïteit behouden blijft voor precieze grounding. FocusUI adresseert twee belangrijke uitdagingen: (1) Het elimineren van redundante tokens in visuele codering. We construeren patch-level supervisie door een instructie-geconditioneerde score te fuseren met een op regels gebaseerde UI-graphscore die grote homogene gebieden down-weight om onderscheidende en instructie-relevante visuele tokens te selecteren. (2) Het behouden van positionele continuïteit tijdens visuele tokenselectie. We constateren dat algemene methoden voor het snoeien van visuele tokens leiden tot ernstige nauwkeurigheidsvermindering bij UI-groundingtaken door verbroken positionele informatie. We introduceren een nieuwe PosPad-strategie, die elke aaneengesloten reeks verwijderde visuele tokens comprimeert tot een enkele speciale marker, geplaatst op de laatste index van de reeks, om positionele continuïteit te behouden. Uitgebreide experimenten op vier groundingbenchmarks tonen aan dat FocusUI GUI-specifieke baseline-methoden overtreft. Op de ScreenSpot-Pro benchmark behaalt FocusUI-7B een prestatieverbetering van 3,7% ten opzichte van GUI-Actor-7B. Zelfs met slechts 30% retentie van visuele tokens daalt FocusUI-7B met slechts 3,2%, terwijl het tot 1,44x snellere inferentie en 17% lager piek-GPU-geheugen bereikt.
English
Vision-Language Models (VLMs) have shown remarkable performance in User Interface (UI) grounding tasks, driven by their ability to process increasingly high-resolution screenshots. However, screenshots are tokenized into thousands of visual tokens (e.g., about 4700 for 2K resolution), incurring significant computational overhead and diluting attention. In contrast, humans typically focus on regions of interest when interacting with UI. In this work, we pioneer the task of efficient UI grounding. Guided by practical analysis of the task's characteristics and challenges, we propose FocusUI, an efficient UI grounding framework that selects patches most relevant to the instruction while preserving positional continuity for precise grounding. FocusUI addresses two key challenges: (1) Eliminating redundant tokens in visual encoding. We construct patch-level supervision by fusing an instruction-conditioned score with a rule-based UI-graph score that down-weights large homogeneous regions to select distinct and instruction-relevant visual tokens. (2) Preserving positional continuity during visual token selection. We find that general visual token pruning methods suffer from severe accuracy degradation on UI grounding tasks due to broken positional information. We introduce a novel PosPad strategy, which compresses each contiguous sequence of dropped visual tokens into a single special marker placed at the sequence's last index to preserve positional continuity. Comprehensive experiments on four grounding benchmarks demonstrate that FocusUI surpasses GUI-specific baselines. On the ScreenSpot-Pro benchmark, FocusUI-7B achieves a performance improvement of 3.7% over GUI-Actor-7B. Even with only 30% visual token retention, FocusUI-7B drops by only 3.2% while achieving up to 1.44x faster inference and 17% lower peak GPU memory.
PDF121January 16, 2026