GUI-AIMA: Allineamento dell'Attenzione Multimodale Intrinseca con un'Ancora Contestuale per il Grounding delle GUI
GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
November 2, 2025
Autori: Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang
cs.AI
Abstract
Il grounding dell'interfaccia grafica utente (GUI) è una funzione chiave degli agenti di utilizzo del computer, che mappa le istruzioni in linguaggio naturale a regioni dello schermo azionabili. Gli approcci esistenti basati su Modelli Linguistici Multimodali di Grande Scala (MLLM) tipicamente lo formulano come un'attività di generazione di coordinate basata su testo, ma generare direttamente coordinate precise da input visivi rimane impegnativo e computazionalmente intensivo. Un modo intuitivo per implementare il grounding della GUI è selezionare prima patch visive rilevanti per le istruzioni e poi determinare la posizione precisa del clic all'interno di tali patch. Basandoci sull'osservazione che gli MLLM generici possiedono una capacità intrinseca di grounding, annidata nelle loro attenzioni, proponiamo GUI-AIMA, un framework di fine-tuning supervisionato basato sull'attenzione e privo di coordinate per un grounding efficiente della GUI. GUI-AIMA allinea l'attenzione multimodale intrinseca degli MLLM con segnali di grounding a livello di patch. Questi segnali sono calcolati in modo adattivo per diverse istruzioni utente mediante aggregazione multi-testa su matrici di attenzione query-visiva semplificate. Inoltre, la sua natura priva di coordinate può integrare facilmente una fase plug-and-play di zoom. GUI-AIMA-3B è stato addestrato con soli 85.000 screenshot, dimostrando un'eccellente efficienza dei dati e verificando che un addestramento leggero può innescare la capacità di grounding nativa degli MLLM. Raggiunge prestazioni all'avanguardia tra i modelli da 3B, ottenendo un'accuratezza media del 58,6% su ScreenSpot-Pro e del 62,2% su OSWorld-G. Pagina del progetto: https://github.com/sjz5202/GUI-AIMA
English
Graphical user interface (GUI) grounding is a key function of computer-use
agents, which maps natural-language instructions to actionable screen regions.
Existing approaches based on Multimodal Large Language Models (MLLMs) typically
formulate it as a text-based coordinate generation task, yet directly
generating precise coordinates from visual inputs remains challenging and
computationally intensive. An intuitive way to implement GUI grounding is to
first select visual patches relevant to the instructions and then determine the
precise click location within those patches. Based on the observations that
general MLLMs have some native grounding capability, nested within their
attentions, we propose GUI-AIMA, an attention-based and coordinate-free
supervised fine-tuning framework for efficient GUI grounding. GUI-AIMA aligns
the intrinsic multimodal attention of MLLMs with patch-wise grounding signals.
These signals are calculated adaptively for diverse user instructions by
multi-head aggregation on simplified query-visual attention matrices. Besides,
its coordinate-free manner can easily integrate a plug-and-play zoom-in stage.
GUI-AIMA-3B was trained with only 85k screenshots, demonstrating exceptional
data efficiency and verifying that light training can trigger the native
grounding capability of MLLMs. It achieves state-of-the-art performance among
3B models, attaining an average accuracy of 58.6% on ScreenSpot-Pro and 62.2%
on OSWorld-G. Project page: https://github.com/sjz5202/GUI-AIMA