InfiGUI-G1: Avanzando en la fundamentación de interfaces gráficas mediante la optimización de políticas de exploración adaptativa
InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
August 7, 2025
Autores: Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI
Resumen
El surgimiento de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha impulsado el desarrollo de agentes autónomos que operan en Interfaces Gráficas de Usuario (GUIs) utilizando únicamente entradas visuales. Un desafío fundamental es anclar de manera robusta las instrucciones en lenguaje natural. Esto requiere una alineación espacial precisa, que localiza con exactitud las coordenadas de cada elemento, y, más críticamente, una alineación semántica correcta, que empareja las instrucciones con el elemento de la interfaz funcionalmente apropiado. Aunque el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha demostrado ser efectivo para mejorar la alineación espacial en estos MLLMs, encontramos que una exploración ineficiente limita la alineación semántica, lo que impide que los modelos aprendan asociaciones semánticas complejas. Para abordar este problema de exploración, presentamos la Optimización de Políticas de Exploración Adaptativa (AEPO, por sus siglas en inglés), un nuevo marco de optimización de políticas. AEPO emplea una estrategia de generación de múltiples respuestas para fomentar una exploración más amplia, la cual es guiada por una función de Recompensa de Exploración Adaptativa (AER) teóricamente fundamentada, derivada de los principios de eficiencia eta=U/C. Nuestros modelos entrenados con AEPO, InfiGUI-G1-3B e InfiGUI-G1-7B, establecen nuevos resultados de vanguardia en múltiples puntos de referencia desafiantes para la anclaje en GUIs, logrando mejoras relativas significativas de hasta un 9.0% frente a la línea base RLVR en puntos de referencia diseñados para probar la generalización y la comprensión semántica. Los recursos están disponibles en https://github.com/InfiXAI/InfiGUI-G1.
English
The emergence of Multimodal Large Language Models (MLLMs) has propelled the
development of autonomous agents that operate on Graphical User Interfaces
(GUIs) using pure visual input. A fundamental challenge is robustly grounding
natural language instructions. This requires a precise spatial alignment, which
accurately locates the coordinates of each element, and, more critically, a
correct semantic alignment, which matches the instructions to the functionally
appropriate UI element. Although Reinforcement Learning with Verifiable Rewards
(RLVR) has proven to be effective at improving spatial alignment for these
MLLMs, we find that inefficient exploration bottlenecks semantic alignment,
which prevent models from learning difficult semantic associations. To address
this exploration problem, we present Adaptive Exploration Policy Optimization
(AEPO), a new policy optimization framework. AEPO employs a multi-answer
generation strategy to enforce broader exploration, which is then guided by a
theoretically grounded Adaptive Exploration Reward (AER) function derived from
first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B
and InfiGUI-G1-7B, establish new state-of-the-art results across multiple
challenging GUI grounding benchmarks, achieving significant relative
improvements of up to 9.0% against the naive RLVR baseline on benchmarks
designed to test generalization and semantic understanding. Resources are
available at https://github.com/InfiXAI/InfiGUI-G1.