GUI-Actor: Визуальное закрепление для GUI-агентов без использования координат
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
June 3, 2025
Авторы: Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao
cs.AI
Аннотация
Одной из ключевых задач при создании GUI-агентов, основанных на визуально-языковых моделях (VLM), является визуальное заземление, то есть локализация соответствующей области экрана для выполнения действий на основе как визуального контента, так и текстовых планов. Большинство существующих подходов формулируют эту задачу как генерацию координат на основе текста. Однако такие методы имеют ряд ограничений: слабое пространственно-семантическое соответствие, неспособность обрабатывать неоднозначные цели обучения и несоответствие между плотной природой координат экрана и грубой, патч-уровневой детализацией визуальных признаков, извлекаемых моделями, такими как Vision Transformers. В данной работе мы предлагаем GUI-Actor, метод на основе VLM для заземления GUI без использования координат. В основе GUI-Actor лежит механизм внимания, который обучается выравнивать выделенный токен <ACTOR> со всеми релевантными визуальными патч-токенами, что позволяет модели предлагать одну или несколько областей для выполнения действий за один проход. В дополнение к этому, мы разработали верификатор заземления для оценки и выбора наиболее подходящей области действия из предложенных кандидатов. Эксперименты показывают, что GUI-Actor превосходит предыдущие передовые методы на нескольких бенчмарках для заземления действий в GUI, демонстрируя улучшенную обобщаемость на незнакомые разрешения экрана и макеты. В частности, GUI-Actor-7B даже превосходит UI-TARS-72B (38.1) на ScreenSpot-Pro, достигая показателей 40.7 с Qwen2-VL и 44.6 с Qwen2.5-VL в качестве базовых моделей. Более того, благодаря включению верификатора, мы обнаружили, что тонкая настройка только нового механизма действий (~100M параметров для модели на 7B) при замороженном VLM-бэкбоне достаточна для достижения производительности, сопоставимой с предыдущими передовыми моделями, что подчеркивает, что GUI-Actor может наделить базовую VLM эффективными возможностями заземления, не жертвуя её универсальными преимуществами.
English
One of the principal challenges in building VLM-powered GUI agents is visual
grounding, i.e., localizing the appropriate screen region for action execution
based on both the visual content and the textual plans. Most existing work
formulates this as a text-based coordinate generation task. However, these
approaches suffer from several limitations: weak spatial-semantic alignment,
inability to handle ambiguous supervision targets, and a mismatch between the
dense nature of screen coordinates and the coarse, patch-level granularity of
visual features extracted by models like Vision Transformers. In this paper, we
propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its
core, GUI-Actor introduces an attention-based action head that learns to align
a dedicated <ACTOR> token with all relevant visual patch tokens, enabling the
model to propose one or more action regions in a single forward pass. In line
with this, we further design a grounding verifier to evaluate and select the
most plausible action region from the candidates proposed for action execution.
Extensive experiments show that GUI-Actor outperforms prior state-of-the-art
methods on multiple GUI action grounding benchmarks, with improved
generalization to unseen screen resolutions and layouts. Notably, GUI-Actor-7B
even surpasses UI-TARS-72B (38.1) on ScreenSpot-Pro, achieving scores of 40.7
with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones. Furthermore, by
incorporating the verifier, we find that fine-tuning only the newly introduced
action head (~100M parameters for 7B model) while keeping the VLM backbone
frozen is sufficient to achieve performance comparable to previous
state-of-the-art models, highlighting that GUI-Actor can endow the underlying
VLM with effective grounding capabilities without compromising its
general-purpose strengths.