InfiGUI-G1: Avançando na Fundamentação de GUI com Otimização de Política de Exploração Adaptativa
InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
August 7, 2025
Autores: Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI
Resumo
O surgimento dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) impulsionou o desenvolvimento de agentes autônomos que operam em Interfaces Gráficas de Usuário (GUIs) utilizando apenas entrada visual. Um desafio fundamental é o robusto ancoramento de instruções em linguagem natural. Isso requer um alinhamento espacial preciso, que localiza com exatidão as coordenadas de cada elemento, e, mais criticamente, um alinhamento semântico correto, que associa as instruções ao elemento de UI funcionalmente apropriado. Embora o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tenha se mostrado eficaz para melhorar o alinhamento espacial nesses MLLMs, descobrimos que a exploração ineficiente cria gargalos no alinhamento semântico, impedindo que os modelos aprendam associações semânticas complexas. Para resolver esse problema de exploração, apresentamos o Adaptive Exploration Policy Optimization (AEPO), uma nova estrutura de otimização de políticas. O AEPO emprega uma estratégia de geração de múltiplas respostas para forçar uma exploração mais ampla, que é então guiada por uma função de recompensa de exploração adaptativa (AER) teoricamente fundamentada, derivada dos princípios de eficiência eta=U/C. Nossos modelos treinados com AEPO, InfiGUI-G1-3B e InfiGUI-G1-7B, estabelecem novos resultados de ponta em vários benchmarks desafiadores de ancoramento em GUI, alcançando melhorias relativas significativas de até 9,0% em relação à linha de base RLVR ingênua em benchmarks projetados para testar generalização e compreensão semântica. Os recursos estão disponíveis em https://github.com/InfiXAI/InfiGUI-G1.
English
The emergence of Multimodal Large Language Models (MLLMs) has propelled the
development of autonomous agents that operate on Graphical User Interfaces
(GUIs) using pure visual input. A fundamental challenge is robustly grounding
natural language instructions. This requires a precise spatial alignment, which
accurately locates the coordinates of each element, and, more critically, a
correct semantic alignment, which matches the instructions to the functionally
appropriate UI element. Although Reinforcement Learning with Verifiable Rewards
(RLVR) has proven to be effective at improving spatial alignment for these
MLLMs, we find that inefficient exploration bottlenecks semantic alignment,
which prevent models from learning difficult semantic associations. To address
this exploration problem, we present Adaptive Exploration Policy Optimization
(AEPO), a new policy optimization framework. AEPO employs a multi-answer
generation strategy to enforce broader exploration, which is then guided by a
theoretically grounded Adaptive Exploration Reward (AER) function derived from
first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B
and InfiGUI-G1-7B, establish new state-of-the-art results across multiple
challenging GUI grounding benchmarks, achieving significant relative
improvements of up to 9.0% against the naive RLVR baseline on benchmarks
designed to test generalization and semantic understanding. Resources are
available at https://github.com/InfiXAI/InfiGUI-G1.