ChatPaper.aiChatPaper

GUI-Actor: Fondamento Visivo Indipendente dalle Coordinate per Agenti GUI

GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

June 3, 2025
Autori: Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao
cs.AI

Abstract

Una delle principali sfide nella costruzione di agenti GUI basati su VLM è il grounding visivo, ovvero la localizzazione della regione appropriata dello schermo per l'esecuzione di azioni basandosi sia sul contenuto visivo che sui piani testuali. La maggior parte del lavoro esistente formula questo compito come una generazione di coordinate basata su testo. Tuttavia, questi approcci presentano diverse limitazioni: un allineamento spaziale-semantico debole, l'incapacità di gestire target di supervisione ambigui e una discrepanza tra la natura densa delle coordinate dello schermo e la granularità grossolana, a livello di patch, delle caratteristiche visive estratte da modelli come i Vision Transformers. In questo articolo, proponiamo GUI-Actor, un metodo basato su VLM per il grounding di GUI senza coordinate. Al suo interno, GUI-Actor introduce una testa di azione basata sull'attenzione che impara ad allineare un token dedicato <ACTOR> con tutti i token visivi di patch rilevanti, consentendo al modello di proporre una o più regioni di azione in un singolo passaggio in avanti. In linea con ciò, progettiamo ulteriormente un verificatore di grounding per valutare e selezionare la regione di azione più plausibile tra quelle proposte per l'esecuzione dell'azione. Esperimenti estesi dimostrano che GUI-Actor supera i precedenti metodi all'avanguardia su più benchmark di grounding di azioni GUI, con un miglioramento nella generalizzazione a risoluzioni e layout dello schermo non visti. In particolare, GUI-Actor-7B supera persino UI-TARS-72B (38.1) su ScreenSpot-Pro, raggiungendo punteggi di 40.7 con Qwen2-VL e 44.6 con Qwen2.5-VL come backbone. Inoltre, incorporando il verificatore, scopriamo che il fine-tuning solo della nuova testa di azione introdotta (~100M parametri per il modello 7B) mantenendo congelato il backbone VLM è sufficiente per ottenere prestazioni comparabili ai precedenti modelli all'avanguardia, evidenziando che GUI-Actor può dotare il VLM sottostante di capacità di grounding efficaci senza comprometterne i punti di forza generali.
English
One of the principal challenges in building VLM-powered GUI agents is visual grounding, i.e., localizing the appropriate screen region for action execution based on both the visual content and the textual plans. Most existing work formulates this as a text-based coordinate generation task. However, these approaches suffer from several limitations: weak spatial-semantic alignment, inability to handle ambiguous supervision targets, and a mismatch between the dense nature of screen coordinates and the coarse, patch-level granularity of visual features extracted by models like Vision Transformers. In this paper, we propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its core, GUI-Actor introduces an attention-based action head that learns to align a dedicated <ACTOR> token with all relevant visual patch tokens, enabling the model to propose one or more action regions in a single forward pass. In line with this, we further design a grounding verifier to evaluate and select the most plausible action region from the candidates proposed for action execution. Extensive experiments show that GUI-Actor outperforms prior state-of-the-art methods on multiple GUI action grounding benchmarks, with improved generalization to unseen screen resolutions and layouts. Notably, GUI-Actor-7B even surpasses UI-TARS-72B (38.1) on ScreenSpot-Pro, achieving scores of 40.7 with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones. Furthermore, by incorporating the verifier, we find that fine-tuning only the newly introduced action head (~100M parameters for 7B model) while keeping the VLM backbone frozen is sufficient to achieve performance comparable to previous state-of-the-art models, highlighting that GUI-Actor can endow the underlying VLM with effective grounding capabilities without compromising its general-purpose strengths.
PDF503June 4, 2025