ChatPaper.aiChatPaper

GUI-AIMA: GUI 기반 작업을 위한 문맥 앵커와 내재적 다중 모드 주의 정렬

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

November 2, 2025
저자: Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang
cs.AI

초록

그래픽 사용자 인터페이스(GUI) 그라운딩은 자연어 명령어를 실행 가능한 화면 영역으로 매핑하는 컴퓨터 사용 에이전트의 핵심 기능입니다. 멀티모달 대규모 언어 모델(MLLM) 기반 기존 접근법은 일반적으로 이를 텍스트 기반 좌표 생성 작업으로 공식화하지만, 시각적 입력으로부터 직접 정확한 좌표를 생성하는 것은 여전히 어렵고 계산 집약적입니다. GUI 그라운딩을 구현하는 직관적인 방법은 명령어와 관련된 시각적 패치를 먼저 선택한 후 해당 패치 내에서 정확한 클릭 위치를 결정하는 것입니다. 일반적인 MLLM이 자체 어텐션 메커니즘 내에 내재된 일부 그라운딩 능력을 보유한다는 관찰에 기반하여, 우리는 효율적인 GUI 그라운딩을 위한 어텐션 기반 및 좌표 무관(coordinate-free) 지도 미세 조정 프레임워크인 GUI-AIMA를 제안합니다. GUI-AIMA는 MLLM의 본질적인 멀티모달 어텐션을 패치 단위 그라운딩 신호와 정렬합니다. 이러한 신호는 단순화된 쿼리-시각 어텐션 행렬에 대한 다중 헤드 집계를 통해 다양한 사용자 명령어에 대해 적응적으로 계산됩니다. 또한, 좌표 무관 방식은 플러그 앤 플레이 방식의 확대(zoom-in) 단계를 쉽게 통합할 수 있게 합니다. GUI-AIMA-3B는 단 85,000개의 스크린샷으로 훈련되어 탁월한 데이터 효율성을 보여주며, 가벼운 훈련으로도 MLLM의 내재된 그라운딩 능력을 활성화할 수 있음을 입증했습니다. 이 모델은 3B 모델 중에서 최첨단 성능을 달성하여 ScreenSpot-Pro에서 평균 정확도 58.6%, OSWorld-G에서 62.2%를 기록했습니다. 프로젝트 페이지: https://github.com/sjz5202/GUI-AIMA
English
Graphical user interface (GUI) grounding is a key function of computer-use agents, which maps natural-language instructions to actionable screen regions. Existing approaches based on Multimodal Large Language Models (MLLMs) typically formulate it as a text-based coordinate generation task, yet directly generating precise coordinates from visual inputs remains challenging and computationally intensive. An intuitive way to implement GUI grounding is to first select visual patches relevant to the instructions and then determine the precise click location within those patches. Based on the observations that general MLLMs have some native grounding capability, nested within their attentions, we propose GUI-AIMA, an attention-based and coordinate-free supervised fine-tuning framework for efficient GUI grounding. GUI-AIMA aligns the intrinsic multimodal attention of MLLMs with patch-wise grounding signals. These signals are calculated adaptively for diverse user instructions by multi-head aggregation on simplified query-visual attention matrices. Besides, its coordinate-free manner can easily integrate a plug-and-play zoom-in stage. GUI-AIMA-3B was trained with only 85k screenshots, demonstrating exceptional data efficiency and verifying that light training can trigger the native grounding capability of MLLMs. It achieves state-of-the-art performance among 3B models, attaining an average accuracy of 58.6% on ScreenSpot-Pro and 62.2% on OSWorld-G. Project page: https://github.com/sjz5202/GUI-AIMA
PDF31January 19, 2026