ChatPaper.aiChatPaper

GUI-AIMA: コンテキストアンカーによる内在的多モーダル注意の整合化とGUIグラウンディング

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

November 2, 2025
著者: Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang
cs.AI

要旨

グラフィカルユーザインタフェース(GUI)グラウンディングは、コンピュータ利用エージェントの主要機能であり、自然言語指示を操作可能な画面上の領域に対応付けるものである。既存のマルチモーダル大規模言語モデル(MLLM)に基づくアプローチは、通常、テキストベースの座標生成タスクとして定式化するが、視覚的入力から直接的に正確な座標を生成することは依然として困難で計算コストが高い。GUIグラウンディングを実装する直観的な方法は、まず指示に関連する視覚的パッチを選択し、その後、それらのパッチ内で正確なクリック位置を決定することである。一般的なMLLMには、その注意機構内に内在する何らかのネイティブなグラウンディング能力が備わっているという観察に基づき、我々は効率的なGUIグラウンディングのための、注意機構ベースで座標を直接出力しない教師ありファインチューニングフレームワーク「GUI-AIMA」を提案する。GUI-AIMAは、MLLMの本質的なマルチモーダル注意を、パッチ単位のグラウンディング信号と整合させる。これらの信号は、簡略化されたクエリ-視覚的注意行列に対するマルチヘッド集約によって、多様なユーザ指示に対して適応的に計算される。さらに、その座標を直接生成しない方式により、プラグアンドプレイ方式のズームイン段階を容易に統合できる。GUI-AIMA-3Bはわずか85,000枚のスクリーンショットで学習され、卓越したデータ効率を示し、軽量な学習でもMLLMのネイティブなグラウンディング能力を引き出せることを検証した。本モデルは3Bモデルの中で最高性能を達成し、ScreenSpot-Proでは平均精度58.6%、OSWorld-Gでは62.2%を達成した。プロジェクトページ: https://github.com/sjz5202/GUI-AIMA
English
Graphical user interface (GUI) grounding is a key function of computer-use agents, which maps natural-language instructions to actionable screen regions. Existing approaches based on Multimodal Large Language Models (MLLMs) typically formulate it as a text-based coordinate generation task, yet directly generating precise coordinates from visual inputs remains challenging and computationally intensive. An intuitive way to implement GUI grounding is to first select visual patches relevant to the instructions and then determine the precise click location within those patches. Based on the observations that general MLLMs have some native grounding capability, nested within their attentions, we propose GUI-AIMA, an attention-based and coordinate-free supervised fine-tuning framework for efficient GUI grounding. GUI-AIMA aligns the intrinsic multimodal attention of MLLMs with patch-wise grounding signals. These signals are calculated adaptively for diverse user instructions by multi-head aggregation on simplified query-visual attention matrices. Besides, its coordinate-free manner can easily integrate a plug-and-play zoom-in stage. GUI-AIMA-3B was trained with only 85k screenshots, demonstrating exceptional data efficiency and verifying that light training can trigger the native grounding capability of MLLMs. It achieves state-of-the-art performance among 3B models, attaining an average accuracy of 58.6% on ScreenSpot-Pro and 62.2% on OSWorld-G. Project page: https://github.com/sjz5202/GUI-AIMA
PDF31January 19, 2026