ChatPaper.aiChatPaper

InfiGUI-G1: Развитие закрепления графического интерфейса с оптимизацией адаптивной стратегии исследования

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

August 7, 2025
Авторы: Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI

Аннотация

Появление мультимодальных больших языковых моделей (MLLMs) стимулировало развитие автономных агентов, работающих с графическими пользовательскими интерфейсами (GUI) на основе исключительно визуального ввода. Основной проблемой является надежное закрепление инструкций на естественном языке. Это требует точного пространственного выравнивания, которое корректно определяет координаты каждого элемента, и, что более важно, правильного семантического выравнивания, которое сопоставляет инструкции с функционально подходящим элементом интерфейса. Хотя обучение с подкреплением с проверяемыми наградами (RLVR) доказало свою эффективность в улучшении пространственного выравнивания для таких MLLMs, мы обнаружили, что неэффективное исследование ограничивает семантическое выравнивание, препятствуя изучению сложных семантических связей. Для решения этой проблемы исследования мы представляем Adaptive Exploration Policy Optimization (AEPO) — новую структуру оптимизации политик. AEPO использует стратегию генерации множественных ответов для обеспечения более широкого исследования, которое затем направляется теоретически обоснованной функцией адаптивной награды за исследование (AER), выведенной из принципов эффективности η=U/C. Наши модели, обученные с использованием AEPO, InfiGUI-G1-3B и InfiGUI-G1-7B, устанавливают новые рекорды на нескольких сложных тестах закрепления в GUI, демонстрируя значительные относительные улучшения до 9,0% по сравнению с базовым подходом RLVR на тестах, предназначенных для проверки обобщения и семантического понимания. Ресурсы доступны по адресу https://github.com/InfiXAI/InfiGUI-G1.
English
The emergence of Multimodal Large Language Models (MLLMs) has propelled the development of autonomous agents that operate on Graphical User Interfaces (GUIs) using pure visual input. A fundamental challenge is robustly grounding natural language instructions. This requires a precise spatial alignment, which accurately locates the coordinates of each element, and, more critically, a correct semantic alignment, which matches the instructions to the functionally appropriate UI element. Although Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be effective at improving spatial alignment for these MLLMs, we find that inefficient exploration bottlenecks semantic alignment, which prevent models from learning difficult semantic associations. To address this exploration problem, we present Adaptive Exploration Policy Optimization (AEPO), a new policy optimization framework. AEPO employs a multi-answer generation strategy to enforce broader exploration, which is then guided by a theoretically grounded Adaptive Exploration Reward (AER) function derived from first principles of efficiency eta=U/C. Our AEPO-trained models, InfiGUI-G1-3B and InfiGUI-G1-7B, establish new state-of-the-art results across multiple challenging GUI grounding benchmarks, achieving significant relative improvements of up to 9.0% against the naive RLVR baseline on benchmarks designed to test generalization and semantic understanding. Resources are available at https://github.com/InfiXAI/InfiGUI-G1.
PDF242August 11, 2025