GUI-Actor: Fundamentação Visual Independente de Coordenadas para Agentes de Interface Gráfica
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
June 3, 2025
Autores: Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao
cs.AI
Resumo
Um dos principais desafios na construção de agentes de interface gráfica (GUI) baseados em modelos de linguagem visual (VLM) é o grounding visual, ou seja, a localização da região apropriada da tela para a execução de ações com base tanto no conteúdo visual quanto nos planos textuais. A maioria dos trabalhos existentes formula isso como uma tarefa de geração de coordenadas baseada em texto. No entanto, essas abordagens sofrem com várias limitações: alinhamento espacial-semântico fraco, incapacidade de lidar com alvos de supervisão ambíguos e uma incompatibilidade entre a natureza densa das coordenadas da tela e a granularidade grossa, em nível de patches, das características visuais extraídas por modelos como Vision Transformers. Neste artigo, propomos o GUI-Actor, um método baseado em VLM para grounding de GUI sem coordenadas. No seu cerne, o GUI-Actor introduz um cabeçalho de ação baseado em atenção que aprende a alinhar um token dedicado <ACTOR> com todos os tokens de patches visuais relevantes, permitindo que o modelo proponha uma ou mais regiões de ação em uma única passagem. Alinhado a isso, projetamos ainda um verificador de grounding para avaliar e selecionar a região de ação mais plausível entre as candidatas propostas para execução. Experimentos extensivos mostram que o GUI-Actor supera os métodos state-of-the-art anteriores em vários benchmarks de grounding de ações em GUI, com melhoria na generalização para resoluções e layouts de tela não vistos. Notavelmente, o GUI-Actor-7B até supera o UI-TARS-72B (38.1) no ScreenSpot-Pro, alcançando pontuações de 40.7 com Qwen2-VL e 44.6 com Qwen2.5-VL como backbones. Além disso, ao incorporar o verificador, descobrimos que o ajuste fino apenas do cabeçalho de ação recém-introduzido (~100M parâmetros para o modelo de 7B), mantendo o backbone do VLM congelado, é suficiente para alcançar desempenho comparável aos modelos state-of-the-art anteriores, destacando que o GUI-Actor pode dotar o VLM subjacente de capacidades eficazes de grounding sem comprometer seus pontos fortes de propósito geral.
English
One of the principal challenges in building VLM-powered GUI agents is visual
grounding, i.e., localizing the appropriate screen region for action execution
based on both the visual content and the textual plans. Most existing work
formulates this as a text-based coordinate generation task. However, these
approaches suffer from several limitations: weak spatial-semantic alignment,
inability to handle ambiguous supervision targets, and a mismatch between the
dense nature of screen coordinates and the coarse, patch-level granularity of
visual features extracted by models like Vision Transformers. In this paper, we
propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its
core, GUI-Actor introduces an attention-based action head that learns to align
a dedicated <ACTOR> token with all relevant visual patch tokens, enabling the
model to propose one or more action regions in a single forward pass. In line
with this, we further design a grounding verifier to evaluate and select the
most plausible action region from the candidates proposed for action execution.
Extensive experiments show that GUI-Actor outperforms prior state-of-the-art
methods on multiple GUI action grounding benchmarks, with improved
generalization to unseen screen resolutions and layouts. Notably, GUI-Actor-7B
even surpasses UI-TARS-72B (38.1) on ScreenSpot-Pro, achieving scores of 40.7
with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones. Furthermore, by
incorporating the verifier, we find that fine-tuning only the newly introduced
action head (~100M parameters for 7B model) while keeping the VLM backbone
frozen is sufficient to achieve performance comparable to previous
state-of-the-art models, highlighting that GUI-Actor can endow the underlying
VLM with effective grounding capabilities without compromising its
general-purpose strengths.