ChatPaper.aiChatPaper

GUI-Actor : Ancrage visuel sans coordonnées pour les agents d'interface graphique

GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

June 3, 2025
Auteurs: Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao
cs.AI

Résumé

L'un des principaux défis dans la construction d'agents d'interface graphique (GUI) pilotés par des modèles de langage visuel (VLM) est l'ancrage visuel, c'est-à-dire la localisation de la région appropriée de l'écran pour l'exécution d'une action en fonction à la fois du contenu visuel et des plans textuels. La plupart des travaux existants formulent cela comme une tâche de génération de coordonnées basée sur le texte. Cependant, ces approches souffrent de plusieurs limitations : un alignement spatial-sémantique faible, une incapacité à gérer des cibles de supervision ambiguës, et une inadéquation entre la nature dense des coordonnées d'écran et la granularité grossière, au niveau des patches, des caractéristiques visuelles extraites par des modèles comme les Vision Transformers. Dans cet article, nous proposons GUI-Actor, une méthode basée sur VLM pour l'ancrage visuel sans coordonnées. Au cœur de GUI-Actor se trouve une tête d'action basée sur l'attention qui apprend à aligner un token dédié <ACTOR> avec tous les tokens de patch visuels pertinents, permettant au modèle de proposer une ou plusieurs régions d'action en une seule passe avant. En lien avec cela, nous concevons également un vérificateur d'ancrage pour évaluer et sélectionner la région d'action la plus plausible parmi les candidats proposés pour l'exécution de l'action. Des expériences approfondies montrent que GUI-Actor surpasse les méthodes précédentes de pointe sur plusieurs benchmarks d'ancrage d'actions GUI, avec une amélioration de la généralisation à des résolutions et des mises en page d'écran inédites. Notamment, GUI-Actor-7B dépasse même UI-TARS-72B (38.1) sur ScreenSpot-Pro, atteignant des scores de 40.7 avec Qwen2-VL et 44.6 avec Qwen2.5-VL comme backbones. De plus, en incorporant le vérificateur, nous constatons que le fine-tuning uniquement de la nouvelle tête d'action introduite (~100M paramètres pour le modèle 7B) tout en gardant le backbone VLM gelé est suffisant pour atteindre des performances comparables aux modèles précédents de pointe, soulignant que GUI-Actor peut doter le VLM sous-jacent de capacités d'ancrage efficaces sans compromettre ses forces généralistes.
English
One of the principal challenges in building VLM-powered GUI agents is visual grounding, i.e., localizing the appropriate screen region for action execution based on both the visual content and the textual plans. Most existing work formulates this as a text-based coordinate generation task. However, these approaches suffer from several limitations: weak spatial-semantic alignment, inability to handle ambiguous supervision targets, and a mismatch between the dense nature of screen coordinates and the coarse, patch-level granularity of visual features extracted by models like Vision Transformers. In this paper, we propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its core, GUI-Actor introduces an attention-based action head that learns to align a dedicated <ACTOR> token with all relevant visual patch tokens, enabling the model to propose one or more action regions in a single forward pass. In line with this, we further design a grounding verifier to evaluate and select the most plausible action region from the candidates proposed for action execution. Extensive experiments show that GUI-Actor outperforms prior state-of-the-art methods on multiple GUI action grounding benchmarks, with improved generalization to unseen screen resolutions and layouts. Notably, GUI-Actor-7B even surpasses UI-TARS-72B (38.1) on ScreenSpot-Pro, achieving scores of 40.7 with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones. Furthermore, by incorporating the verifier, we find that fine-tuning only the newly introduced action head (~100M parameters for 7B model) while keeping the VLM backbone frozen is sufficient to achieve performance comparable to previous state-of-the-art models, highlighting that GUI-Actor can endow the underlying VLM with effective grounding capabilities without compromising its general-purpose strengths.
PDF373June 4, 2025