ChatPaper.aiChatPaper

InfiGUI-G1: Fortschritte in der GUI-Verankerung durch adaptive Explorationspolitik-Optimierung

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

August 7, 2025
papers.authors: Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI

papers.abstract

Die Entstehung von Multimodalen Großen Sprachmodellen (MLLMs) hat die Entwicklung autonomer Agenten vorangetrieben, die auf grafischen Benutzeroberflächen (GUIs) mit rein visuellen Eingaben operieren. Eine grundlegende Herausforderung besteht darin, natürliche Sprachanweisungen robust zu verankern. Dies erfordert eine präzise räumliche Ausrichtung, die die Koordinaten jedes Elements genau lokalisiert, und, noch kritischer, eine korrekte semantische Ausrichtung, die die Anweisungen mit dem funktional passenden UI-Element abgleicht. Obwohl Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) sich als effektiv erwiesen hat, um die räumliche Ausrichtung für diese MLLMs zu verbessern, stellen wir fest, dass ineffiziente Exploration die semantische Ausrichtung behindert, was die Modelle daran hindert, schwierige semantische Assoziationen zu erlernen. Um dieses Explorationsproblem zu lösen, präsentieren wir Adaptive Exploration Policy Optimization (AEPO), ein neues Policy-Optimierungs-Framework. AEPO verwendet eine Multi-Antwort-Generierungsstrategie, um eine breitere Exploration zu erzwingen, die dann durch eine theoretisch fundierte Adaptive Exploration Reward (AER)-Funktion geleitet wird, die aus den ersten Prinzipien der Effizienz eta=U/C abgeleitet ist. Unsere mit AEPO trainierten Modelle, InfiGUI-G1-3B und InfiGUI-G1-7B, setzen neue Maßstäbe in mehreren anspruchsvollen GUI-Verankerungs-Benchmarks und erzielen signifikante relative Verbesserungen von bis zu 9,0 % gegenüber dem naiven RLVR-Baseline auf Benchmarks, die zur Überprüfung der Generalisierung und des semantischen Verständnisses entwickelt wurden. Ressourcen sind verfügbar unter https://github.com/InfiXAI/InfiGUI-G1.
English
The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be effective at improving spatial alignment for these MLLMs, we find that inefficient exploration bottlenecks semantic alignment, which prevent models from learning difficult semantic associations. To address this exploration problem, we present Adaptive Exploration Policy Optimization (AEPO), a new policy optimization framework. AEPO employs a multi-answer generation strategy to enforce broader exploration, which is then guided by a theoretically grounded Adaptive Exploration Reward (AER) function derived from first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B and InfiGUI-G1-7B, establish new state-of-the-art results across multiple challenging GUI grounding benchmarks, achieving significant relative improvements of up to 9.0% against the naive RLVR baseline on benchmarks designed to test generalization and semantic understanding. Resources are available at https://github.com/InfiXAI/InfiGUI-G1.
PDF252August 11, 2025