ChatPaper.aiChatPaper

InfiGUI-G1: Avanzamenti nel Grounding delle GUI con Ottimizzazione Adattiva delle Politiche di Esplorazione

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

August 7, 2025
Autori: Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI

Abstract

L'emergenza dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) ha favorito lo sviluppo di agenti autonomi che operano su Interfacce Grafiche Utente (GUI) utilizzando esclusivamente input visivi. Una sfida fondamentale è l'ancoraggio robusto delle istruzioni in linguaggio naturale. Ciò richiede un allineamento spaziale preciso, che localizza accuratamente le coordinate di ciascun elemento, e, ancora più crucialmente, un corretto allineamento semantico, che associa le istruzioni all'elemento dell'interfaccia utente funzionalmente appropriato. Sebbene il Reinforcement Learning con Ricompense Verificabili (RLVR) si sia dimostrato efficace nel migliorare l'allineamento spaziale per questi MLLMs, abbiamo riscontrato che un'esplorazione inefficiente rappresenta un collo di bottiglia per l'allineamento semantico, impedendo ai modelli di apprendere associazioni semantiche complesse. Per affrontare questo problema di esplorazione, presentiamo l'Adaptive Exploration Policy Optimization (AEPO), un nuovo framework di ottimizzazione delle policy. L'AEPO utilizza una strategia di generazione multi-risposta per imporre un'esplorazione più ampia, guidata da una funzione di ricompensa di esplorazione adattiva (AER) teoricamente fondata, derivata dai principi di efficienza eta=U/C. I nostri modelli addestrati con AEPO, InfiGUI-G1-3B e InfiGUI-G1-7B, stabiliscono nuovi risultati all'avanguardia su molteplici benchmark impegnativi per l'ancoraggio delle GUI, ottenendo miglioramenti relativi significativi fino al 9,0% rispetto al baseline RLVR ingenuo su benchmark progettati per testare la generalizzazione e la comprensione semantica. Le risorse sono disponibili su https://github.com/InfiXAI/InfiGUI-G1.
English
The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be effective at improving spatial alignment for these MLLMs, we find that inefficient exploration bottlenecks semantic alignment, which prevent models from learning difficult semantic associations. To address this exploration problem, we present Adaptive Exploration Policy Optimization (AEPO), a new policy optimization framework. AEPO employs a multi-answer generation strategy to enforce broader exploration, which is then guided by a theoretically grounded Adaptive Exploration Reward (AER) function derived from first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B and InfiGUI-G1-7B, establish new state-of-the-art results across multiple challenging GUI grounding benchmarks, achieving significant relative improvements of up to 9.0% against the naive RLVR baseline on benchmarks designed to test generalization and semantic understanding. Resources are available at https://github.com/InfiXAI/InfiGUI-G1.
PDF252August 11, 2025