ChatPaper.aiChatPaper

InfiGUI-G1 : Progrès dans l'ancrage des interfaces graphiques grâce à l'optimisation de politiques d'exploration adaptative

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

August 7, 2025
papers.authors: Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI

papers.abstract

L'émergence des Modèles de Langage Multimodaux de Grande Taille (MLLMs) a propulsé le développement d'agents autonomes opérant sur des Interfaces Graphiques Utilisateur (GUIs) en utilisant uniquement des entrées visuelles. Un défi fondamental est l'ancrage robuste des instructions en langage naturel. Cela nécessite un alignement spatial précis, qui localise avec exactitude les coordonnées de chaque élément, et, plus crucialement, un alignement sémantique correct, qui associe les instructions à l'élément d'interface utilisateur fonctionnellement approprié. Bien que l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) se soit avéré efficace pour améliorer l'alignement spatial de ces MLLMs, nous constatons qu'une exploration inefficace entrave l'alignement sémantique, empêchant les modèles d'apprendre des associations sémantiques complexes. Pour résoudre ce problème d'exploration, nous présentons l'Optimisation de Politique d'Exploration Adaptative (AEPO), un nouveau cadre d'optimisation de politique. AEPO utilise une stratégie de génération à réponses multiples pour imposer une exploration plus large, guidée par une fonction de Récompense d'Exploration Adaptative (AER) théoriquement fondée, dérivée des principes de base de l'efficacité η=U/C. Nos modèles entraînés avec AEPO, InfiGUI-G1-3B et InfiGUI-G1-7B, établissent de nouveaux records de pointe sur plusieurs benchmarks exigeants d'ancrage GUI, obtenant des améliorations relatives significatives allant jusqu'à 9,0 % par rapport à la base naïve RLVR sur des benchmarks conçus pour tester la généralisation et la compréhension sémantique. Les ressources sont disponibles à l'adresse https://github.com/InfiXAI/InfiGUI-G1.
English
The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be effective at improving spatial alignment for these MLLMs, we find that inefficient exploration bottlenecks semantic alignment, which prevent models from learning difficult semantic associations. To address this exploration problem, we present Adaptive Exploration Policy Optimization (AEPO), a new policy optimization framework. AEPO employs a multi-answer generation strategy to enforce broader exploration, which is then guided by a theoretically grounded Adaptive Exploration Reward (AER) function derived from first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B and InfiGUI-G1-7B, establish new state-of-the-art results across multiple challenging GUI grounding benchmarks, achieving significant relative improvements of up to 9.0% against the naive RLVR baseline on benchmarks designed to test generalization and semantic understanding. Resources are available at https://github.com/InfiXAI/InfiGUI-G1.
PDF242August 11, 2025