GUI-AIMA : Aligner l'attention multimodale intrinsèque avec une ancre contextuelle pour l'ancrage d'interface graphique
GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
November 2, 2025
papers.authors: Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang
cs.AI
papers.abstract
La mise en correspondance d'interface graphique (GUI grounding) est une fonction clé des agents d'utilisation informatique, qui associe des instructions en langage naturel à des régions d'écran actionnables. Les approches existantes basées sur les modèles de langage multimodaux (MLLM) le formulent généralement comme une tâche de génération de coordonnées basée sur le texte, mais générer directement des coordonnées précises à partir d'entrées visuelles reste difficile et coûteux en calcul. Une manière intuitive de mettre en œuvre cette correspondance consiste d'abord à sélectionner des patches visuels pertinents pour les instructions, puis à déterminer l'emplacement de clic précis dans ces patches. En nous appuyant sur l'observation que les MLLM généraux possèdent une capacité native de mise en correspondance, nichée dans leurs mécanismes d'attention, nous proposons GUI-AIMA, un framework de fine-tuning supervisé sans coordonnées et basé sur l'attention pour une mise en correspondance efficace des interfaces graphiques. GUI-AIMA aligne l'attention multimodale intrinsèque des MLLM avec des signaux de mise en correspondance par patchs. Ces signaux sont calculés de manière adaptative pour diverses instructions utilisateur par agrégation multi-têtes sur des matrices d'attention requête-visuelle simplifiées. De plus, son approche sans coordonnées permet d'intégrer facilement une étape de zoom amovible. GUI-AIMA-3B a été entraîné avec seulement 85 000 captures d'écran, démontrant une exceptionnelle efficacité des données et confirmant qu'un entraînement léger peut déclencher la capacité native de mise en correspondance des MLLM. Il obtient des performances de pointe parmi les modèles 3B, atteignant une précision moyenne de 58,6 % sur ScreenSpot-Pro et 62,2 % sur OSWorld-G. Page du projet : https://github.com/sjz5202/GUI-AIMA
English
Graphical user interface (GUI) grounding is a key function of computer-use
agents, which maps natural-language instructions to actionable screen regions.
Existing approaches based on Multimodal Large Language Models (MLLMs) typically
formulate it as a text-based coordinate generation task, yet directly
generating precise coordinates from visual inputs remains challenging and
computationally intensive. An intuitive way to implement GUI grounding is to
first select visual patches relevant to the instructions and then determine the
precise click location within those patches. Based on the observations that
general MLLMs have some native grounding capability, nested within their
attentions, we propose GUI-AIMA, an attention-based and coordinate-free
supervised fine-tuning framework for efficient GUI grounding. GUI-AIMA aligns
the intrinsic multimodal attention of MLLMs with patch-wise grounding signals.
These signals are calculated adaptively for diverse user instructions by
multi-head aggregation on simplified query-visual attention matrices. Besides,
its coordinate-free manner can easily integrate a plug-and-play zoom-in stage.
GUI-AIMA-3B was trained with only 85k screenshots, demonstrating exceptional
data efficiency and verifying that light training can trigger the native
grounding capability of MLLMs. It achieves state-of-the-art performance among
3B models, attaining an average accuracy of 58.6% on ScreenSpot-Pro and 62.2%
on OSWorld-G. Project page: https://github.com/sjz5202/GUI-AIMA