GUI-Actor: Coördinatenvrije Visuele Verankering voor GUI-Agenten
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
June 3, 2025
Auteurs: Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao
cs.AI
Samenvatting
Een van de belangrijkste uitdagingen bij het bouwen van VLM-gestuurde GUI-agents is visuele verankering, d.w.z. het lokaliseren van het juiste schermgebied voor actie-uitvoering op basis van zowel de visuele inhoud als de tekstuele plannen. De meeste bestaande benaderingen formuleren dit als een tekstgebaseerde coördinatengeneratietaak. Deze benaderingen hebben echter verschillende beperkingen: zwakke ruimtelijk-semantische uitlijning, onvermogen om ambigue supervisiedoelen te hanteren, en een mismatch tussen de dichte aard van schermcoördinaten en de grove, patch-niveau granulariteit van visuele kenmerken die door modellen zoals Vision Transformers worden geëxtraheerd. In dit artikel stellen we GUI-Actor voor, een VLM-gebaseerde methode voor coördinaatvrije GUI-verankering. De kern van GUI-Actor introduceert een aandacht-gebaseerde actiekop die leert om een toegewijd <ACTOR>-token uit te lijnen met alle relevante visuele patch-tokens, waardoor het model in één voorwaartse pass één of meer actiegebieden kan voorstellen. In lijn hiermee ontwerpen we verder een verankeringsverificateur om het meest plausibele actiegebied te evalueren en te selecteren uit de kandidaten die voor actie-uitvoering worden voorgesteld. Uitgebreide experimenten tonen aan dat GUI-Actor eerdere state-of-the-art methoden overtreft op meerdere GUI-actieverankeringsbenchmarks, met verbeterde generalisatie naar onbekende schermresoluties en lay-outs. Opmerkelijk is dat GUI-Actor-7B zelfs UI-TARS-72B (38.1) overtreft op ScreenSpot-Pro, met scores van 40.7 met Qwen2-VL en 44.6 met Qwen2.5-VL als backbones. Bovendien blijkt door het incorporeren van de verificateur dat fine-tuning van alleen de nieuw geïntroduceerde actiekop (~100M parameters voor 7B model) terwijl de VLM-backbone bevroren blijft, voldoende is om prestaties te bereiken die vergelijkbaar zijn met eerdere state-of-the-art modellen, wat aantoont dat GUI-Actor de onderliggende VLM kan uitrusten met effectieve verankeringsmogelijkheden zonder in te boeten aan zijn algemene sterke punten.
English
One of the principal challenges in building VLM-powered GUI agents is visual
grounding, i.e., localizing the appropriate screen region for action execution
based on both the visual content and the textual plans. Most existing work
formulates this as a text-based coordinate generation task. However, these
approaches suffer from several limitations: weak spatial-semantic alignment,
inability to handle ambiguous supervision targets, and a mismatch between the
dense nature of screen coordinates and the coarse, patch-level granularity of
visual features extracted by models like Vision Transformers. In this paper, we
propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its
core, GUI-Actor introduces an attention-based action head that learns to align
a dedicated <ACTOR> token with all relevant visual patch tokens, enabling the
model to propose one or more action regions in a single forward pass. In line
with this, we further design a grounding verifier to evaluate and select the
most plausible action region from the candidates proposed for action execution.
Extensive experiments show that GUI-Actor outperforms prior state-of-the-art
methods on multiple GUI action grounding benchmarks, with improved
generalization to unseen screen resolutions and layouts. Notably, GUI-Actor-7B
even surpasses UI-TARS-72B (38.1) on ScreenSpot-Pro, achieving scores of 40.7
with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones. Furthermore, by
incorporating the verifier, we find that fine-tuning only the newly introduced
action head (~100M parameters for 7B model) while keeping the VLM backbone
frozen is sufficient to achieve performance comparable to previous
state-of-the-art models, highlighting that GUI-Actor can endow the underlying
VLM with effective grounding capabilities without compromising its
general-purpose strengths.