GUI-AIMA: Ausrichtung der intrinsischen multimodalen Aufmerksamkeit mit einem Kontextanker für GUI-Verknüpfung
GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
November 2, 2025
papers.authors: Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang
cs.AI
papers.abstract
Die grafische Benutzeroberfläche (GUI) Grounding ist eine Kernfunktion von Computer-Nutzungsagenten, die natürliche Sprachbefehle auf aktionsfähige Bildschirmbereiche abbildet. Bestehende Ansätze auf Basis multimodaler großer Sprachmodelle (MLLMs) formulieren dies typischerweise als textbasierte Koordinatengenerierungsaufgabe, doch die direkte Generierung präziser Koordinaten aus visuellen Eingaben bleibt herausfordernd und rechenintensiv. Eine intuitive Möglichkeit zur Implementierung von GUI-Grounding besteht darin, zunächst visuelle Bildausschnitte auszuwählen, die für die Befehle relevant sind, und dann die genauen Klickpositionen innerhalb dieser Ausschnitte zu bestimmen. Basierend auf der Beobachtung, dass allgemeine MLLMs über eine gewisse native Grounding-Fähigkeit verfügen, die in ihren Aufmerksamkeitsmechanismen eingebettet ist, schlagen wir GUI-AIMA vor, ein aufmerksamkeitsbasiertes und koordinatenfreies Supervised-Fine-Tuning-Framework für effizientes GUI-Grounding. GUI-AIMA richtet die intrinsische multimodale Aufmerksamkeit von MLLMs an patchweisen Grounding-Signalen aus. Diese Signale werden adaptiv für diverse Benutzeranweisungen durch Multi-Head-Aggregation auf vereinfachten Abfrage-Visual-Aufmerksamkeitsmatrizen berechnet. Zudem kann seine koordinatenfreie Art einfach eine Plug-and-Play-Zoom-Stufe integrieren. GUI-AIMA-3B wurde mit nur 85.000 Bildschirmfotos trainiert, was eine außergewöhnliche Dateneffizienz demonstriert und bestätigt, dass leichtes Training die native Grounding-Fähigkeit von MLLMs aktivieren kann. Es erzielt state-of-the-art Leistung unter 3B-Modellen mit einer durchschnittlichen Genauigkeit von 58,6 % auf ScreenSpot-Pro und 62,2 % auf OSWorld-G. Projektseite: https://github.com/sjz5202/GUI-AIMA
English
Graphical user interface (GUI) grounding is a key function of computer-use
agents, which maps natural-language instructions to actionable screen regions.
Existing approaches based on Multimodal Large Language Models (MLLMs) typically
formulate it as a text-based coordinate generation task, yet directly
generating precise coordinates from visual inputs remains challenging and
computationally intensive. An intuitive way to implement GUI grounding is to
first select visual patches relevant to the instructions and then determine the
precise click location within those patches. Based on the observations that
general MLLMs have some native grounding capability, nested within their
attentions, we propose GUI-AIMA, an attention-based and coordinate-free
supervised fine-tuning framework for efficient GUI grounding. GUI-AIMA aligns
the intrinsic multimodal attention of MLLMs with patch-wise grounding signals.
These signals are calculated adaptively for diverse user instructions by
multi-head aggregation on simplified query-visual attention matrices. Besides,
its coordinate-free manner can easily integrate a plug-and-play zoom-in stage.
GUI-AIMA-3B was trained with only 85k screenshots, demonstrating exceptional
data efficiency and verifying that light training can trigger the native
grounding capability of MLLMs. It achieves state-of-the-art performance among
3B models, attaining an average accuracy of 58.6% on ScreenSpot-Pro and 62.2%
on OSWorld-G. Project page: https://github.com/sjz5202/GUI-AIMA