ChatPaper.aiChatPaper

InfiGUI-G1: 적응형 탐색 정책 최적화를 통한 GUI 그라운딩 기술 발전

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

August 7, 2025
저자: Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI

초록

멀티모달 대형 언어 모델(MLLMs)의 등장은 순수 시각 입력을 통해 그래픽 사용자 인터페이스(GUIs)에서 작동하는 자율 에이전트의 개발을 촉진시켰습니다. 근본적인 과제는 자연어 명령어를 견고하게 기반으로 삼는 것입니다. 이는 각 요소의 좌표를 정확히 찾아내는 공간적 정렬과, 더욱 중요하게는 명령어를 기능적으로 적절한 UI 요소와 일치시키는 의미적 정렬을 요구합니다. 검증 가능한 보상을 통한 강화 학습(RLVR)이 이러한 MLLMs의 공간적 정렬을 개선하는 데 효과적임이 입증되었지만, 비효율적인 탐색이 의미적 정렬을 방해하여 모델이 어려운 의미적 연관성을 학습하지 못하게 하는 것으로 나타났습니다. 이 탐색 문제를 해결하기 위해, 우리는 새로운 정책 최적화 프레임워크인 적응형 탐색 정책 최적화(AEPO)를 제시합니다. AEPO는 더 넓은 탐색을 강제하기 위해 다중 답변 생성 전략을 사용하며, 이는 효율성의 기본 원리인 eta=U/C에서 도출된 이론적으로 근거 있는 적응형 탐색 보상(AER) 함수에 의해 안내됩니다. AEPO로 훈련된 모델인 InfiGUI-G1-3B와 InfiGUI-G1-7B는 여러 도전적인 GUI 기반 벤치마크에서 새로운 최첨단 결과를 달성하며, 일반화와 의미적 이해를 테스트하기 위해 설계된 벤치마크에서 순진한 RLVR 기준에 비해 최대 9.0%의 상대적 개선을 이루었습니다. 리소스는 https://github.com/InfiXAI/InfiGUI-G1에서 확인할 수 있습니다.
English
The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be effective at improving spatial alignment for these MLLMs, we find that inefficient exploration bottlenecks semantic alignment, which prevent models from learning difficult semantic associations. To address this exploration problem, we present Adaptive Exploration Policy Optimization (AEPO), a new policy optimization framework. AEPO employs a multi-answer generation strategy to enforce broader exploration, which is then guided by a theoretically grounded Adaptive Exploration Reward (AER) function derived from first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B and InfiGUI-G1-7B, establish new state-of-the-art results across multiple challenging GUI grounding benchmarks, achieving significant relative improvements of up to 9.0% against the naive RLVR baseline on benchmarks designed to test generalization and semantic understanding. Resources are available at https://github.com/InfiXAI/InfiGUI-G1.
PDF242August 11, 2025