GUI-Actor: Fundamentación Visual Independiente de Coordenadas para Agentes de Interfaz Gráfica

Resumen

Uno de los principales desafíos en la construcción de agentes GUI impulsados por VLM es el anclaje visual, es decir, localizar la región adecuada de la pantalla para la ejecución de acciones basándose tanto en el contenido visual como en los planes textuales. La mayoría de los trabajos existentes formula esto como una tarea de generación de coordenadas basada en texto. Sin embargo, estos enfoques presentan varias limitaciones: alineación espacial-semántica débil, incapacidad para manejar objetivos de supervisión ambiguos y un desajuste entre la naturaleza densa de las coordenadas de pantalla y la granularidad gruesa a nivel de parches de las características visuales extraídas por modelos como los Vision Transformers. En este artículo, proponemos GUI-Actor, un método basado en VLM para el anclaje GUI sin coordenadas. En su núcleo, GUI-Actor introduce una cabeza de acción basada en atención que aprende a alinear un token dedicado <ACTOR> con todos los tokens de parches visuales relevantes, permitiendo que el modelo proponga una o más regiones de acción en un único paso hacia adelante. En línea con esto, diseñamos además un verificador de anclaje para evaluar y seleccionar la región de acción más plausible entre las candidatas propuestas para la ejecución de la acción. Experimentos extensivos muestran que GUI-Actor supera a los métodos previos más avanzados en múltiples benchmarks de anclaje de acciones GUI, con una mejora en la generalización a resoluciones y diseños de pantalla no vistos. Notablemente, GUI-Actor-7B incluso supera a UI-TARS-72B (38.1) en ScreenSpot-Pro, alcanzando puntajes de 40.7 con Qwen2-VL y 44.6 con Qwen2.5-VL como backbones. Además, al incorporar el verificador, encontramos que ajustar finamente solo la cabeza de acción recién introducida (~100M parámetros para el modelo de 7B) mientras se mantiene congelado el backbone VLM es suficiente para lograr un rendimiento comparable a los modelos más avanzados anteriores, destacando que GUI-Actor puede dotar al VLM subyacente con capacidades efectivas de anclaje sin comprometer sus fortalezas de propósito general.

English

One of the principal challenges in building VLM-powered GUI agents is visual grounding, i.e., localizing the appropriate screen region for action execution based on both the visual content and the textual plans. Most existing work formulates this as a text-based coordinate generation task. However, these approaches suffer from several limitations: weak spatial-semantic alignment, inability to handle ambiguous supervision targets, and a mismatch between the dense nature of screen coordinates and the coarse, patch-level granularity of visual features extracted by models like Vision Transformers. In this paper, we propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its core, GUI-Actor introduces an attention-based action head that learns to align a dedicated <ACTOR> token with all relevant visual patch tokens, enabling the model to propose one or more action regions in a single forward pass. In line with this, we further design a grounding verifier to evaluate and select the most plausible action region from the candidates proposed for action execution. Extensive experiments show that GUI-Actor outperforms prior state-of-the-art methods on multiple GUI action grounding benchmarks, with improved generalization to unseen screen resolutions and layouts. Notably, GUI-Actor-7B even surpasses UI-TARS-72B (38.1) on ScreenSpot-Pro, achieving scores of 40.7 with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones. Furthermore, by incorporating the verifier, we find that fine-tuning only the newly introduced action head (~100M parameters for 7B model) while keeping the VLM backbone frozen is sufficient to achieve performance comparable to previous state-of-the-art models, highlighting that GUI-Actor can endow the underlying VLM with effective grounding capabilities without compromising its general-purpose strengths.

GUI-Actor: Fundamentación Visual Independiente de Coordenadas para Agentes de Interfaz Gráfica

GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

Resumen

Support