InfiGUI-G1: Vooruitgang in GUI-gronding met optimalisatie van adaptief verkenningsbeleid

Samenvatting

De opkomst van Multimodale Grote Taalmodellen (MLLMs) heeft de ontwikkeling van autonome agents die werken op Grafische Gebruikersinterfaces (GUIs) met puur visuele input gestimuleerd. Een fundamentele uitdaging is het robuust verankeren van natuurlijke taal-instructies. Dit vereist een nauwkeurige ruimtelijke uitlijning, die de coördinaten van elk element precies lokaliseert, en, nog kritischer, een correcte semantische uitlijning, die de instructies koppelt aan het functioneel geschikte UI-element. Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR) effectief is gebleken bij het verbeteren van de ruimtelijke uitlijning voor deze MLLMs, constateren we dat inefficiënte verkenning een knelpunt vormt voor semantische uitlijning, wat modellen ervan weerhoudt moeilijke semantische associaties te leren. Om dit verkenningsprobleem aan te pakken, presenteren we Adaptive Exploration Policy Optimization (AEPO), een nieuw beleidsoptimalisatiekader. AEPO maakt gebruik van een strategie voor het genereren van meerdere antwoorden om bredere verkenning af te dwingen, die vervolgens wordt geleid door een theoretisch onderbouwde Adaptive Exploration Reward (AER)-functie, afgeleid uit de eerste principes van efficiëntie eta=U/C. Onze met AEPO getrainde modellen, InfiGUI-G1-3B en InfiGUI-G1-7B, vestigen nieuwe state-of-the-art resultaten op meerdere uitdagende GUI-verankeringsbenchmarks, met significante relatieve verbeteringen van tot wel 9,0% ten opzichte van de naïeve RLVR-baseline op benchmarks die zijn ontworpen om generalisatie en semantisch begrip te testen. Bronnen zijn beschikbaar op https://github.com/InfiXAI/InfiGUI-G1.

English

The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be effective at improving spatial alignment for these MLLMs, we find that inefficient exploration bottlenecks semantic alignment, which prevent models from learning difficult semantic associations. To address this exploration problem, we present Adaptive Exploration Policy Optimization (AEPO), a new policy optimization framework. AEPO employs a multi-answer generation strategy to enforce broader exploration, which is then guided by a theoretically grounded Adaptive Exploration Reward (AER) function derived from first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B and InfiGUI-G1-7B, establish new state-of-the-art results across multiple challenging GUI grounding benchmarks, achieving significant relative improvements of up to 9.0% against the naive RLVR baseline on benchmarks designed to test generalization and semantic understanding. Resources are available at https://github.com/InfiXAI/InfiGUI-G1.

InfiGUI-G1: Vooruitgang in GUI-gronding met optimalisatie van adaptief verkenningsbeleid

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Samenvatting

Support