GUI-AIMA: Alinhando a Atenção Multimodal Intrínseca com uma Âncora Contextual para a Fundamentação de GUI
GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
November 2, 2025
Autores: Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang
cs.AI
Resumo
A fundamentação de interface gráfica do utilizador (GUI) é uma função fundamental dos agentes de uso de computador, que mapeia instruções em linguagem natural para regiões de ecrã acionáveis. As abordagens existentes baseadas em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) normalmente formulam esta tarefa como uma geração de coordenadas baseada em texto; no entanto, gerar coordenadas precisas diretamente a partir de entradas visuais continua a ser um desafio e computacionalmente intensivo. Uma forma intuitiva de implementar a fundamentação de GUI é primeiro selecionar fragmentos visuais relevantes para as instruções e depois determinar a localização precisa do clique dentro desses fragmentos. Com base nas observações de que os MLLMs gerais possuem alguma capacidade de fundamentação nativa, aninhada nas suas atenções, propomos o GUI-AIMA, um framework de afinamento supervisionado, baseado em atenção e livre de coordenadas, para uma fundamentação de GUI eficiente. O GUI-AIMA alinha a atenção multimodal intrínseca dos MLLMs com sinais de fundamentação a nível de fragmento. Estes sinais são calculados de forma adaptativa para diversas instruções do utilizador através de agregação multi-cabeça em matrizes de atenção consulta-visual simplificadas. Além disso, a sua natureza livre de coordenadas pode integrar facilmente uma fase de ampliação do tipo "plug-and-play". O GUI-AIMA-3B foi treinado com apenas 85 mil capturas de ecrã, demonstrando uma excecional eficiência de dados e verificando que um treino leve pode desencadear a capacidade de fundamentação nativa dos MLLMs. Ele atinge um desempenho de ponta entre os modelos de 3B, alcançando uma precisão média de 58,6% no ScreenSpot-Pro e 62,2% no OSWorld-G. Página do projeto: https://github.com/sjz5202/GUI-AIMA
English
Graphical user interface (GUI) grounding is a key function of computer-use
agents, which maps natural-language instructions to actionable screen regions.
Existing approaches based on Multimodal Large Language Models (MLLMs) typically
formulate it as a text-based coordinate generation task, yet directly
generating precise coordinates from visual inputs remains challenging and
computationally intensive. An intuitive way to implement GUI grounding is to
first select visual patches relevant to the instructions and then determine the
precise click location within those patches. Based on the observations that
general MLLMs have some native grounding capability, nested within their
attentions, we propose GUI-AIMA, an attention-based and coordinate-free
supervised fine-tuning framework for efficient GUI grounding. GUI-AIMA aligns
the intrinsic multimodal attention of MLLMs with patch-wise grounding signals.
These signals are calculated adaptively for diverse user instructions by
multi-head aggregation on simplified query-visual attention matrices. Besides,
its coordinate-free manner can easily integrate a plug-and-play zoom-in stage.
GUI-AIMA-3B was trained with only 85k screenshots, demonstrating exceptional
data efficiency and verifying that light training can trigger the native
grounding capability of MLLMs. It achieves state-of-the-art performance among
3B models, attaining an average accuracy of 58.6% on ScreenSpot-Pro and 62.2%
on OSWorld-G. Project page: https://github.com/sjz5202/GUI-AIMA