ChatPaper.aiChatPaper

UI-AGILE: Развитие графических интерфейсов агентов с использованием эффективного обучения с подкреплением и точного привязывания на этапе вывода

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

July 29, 2025
Авторы: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li
cs.AI

Аннотация

Появление мультимодальных больших языковых моделей (MLLMs) привело к значительному прогрессу в возможностях агентов для графического пользовательского интерфейса (GUI). Тем не менее, существующие методы обучения и вывода GUI-агентов по-прежнему сталкиваются с проблемами в проектировании логических рассуждений, неэффективными системами вознаграждения и визуальным шумом. Для решения этих проблем мы представляем UI-AGILE — комплексную структуру, улучшающую GUI-агенты как на этапе обучения, так и на этапе вывода. Для обучения мы предлагаем ряд улучшений процесса тонкой настройки с учителем (SFT): 1) функцию непрерывного вознаграждения для стимулирования высокой точности локализации; 2) вознаграждение "Простое мышление" для баланса между планированием, скоростью и точностью локализации; и 3) стратегию повторной выборки на основе обрезки для смягчения проблемы разреженного вознаграждения и улучшения обучения на сложных задачах. Для вывода мы представляем метод "Разложенная локализация с выбором", который значительно повышает точность локализации на дисплеях с высоким разрешением, разбивая изображение на меньшие, управляемые части. Эксперименты показывают, что UI-AGILE достигает наилучших результатов на двух тестовых наборах данных ScreenSpot-Pro и ScreenSpot-v2. Например, использование предложенных методов улучшения обучения и вывода приводит к увеличению точности локализации на 23% по сравнению с лучшим базовым методом на ScreenSpot-Pro.
English
The emergence of Multimodal Large Language Models (MLLMs) has driven significant advances in Graphical User Interface (GUI) agent capabilities. Nevertheless, existing GUI agent training and inference techniques still suffer from a dilemma for reasoning designs, ineffective reward, and visual noise. To address these issues, we introduce UI-AGILE, a comprehensive framework enhancing GUI agents at both the training and inference stages. For training, we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process: 1) a Continuous Reward function to incentivize high-precision grounding; 2) a "Simple Thinking" reward to balance planning with speed and grounding accuracy; and 3) a Cropping-based Resampling strategy to mitigate the sparse reward problem and improve learning on complex tasks. For inference, we present Decomposed Grounding with Selection, a novel method that dramatically improves grounding accuracy on high-resolution displays by breaking the image into smaller, manageable parts. Experiments show that UI-AGILE achieves the state-of-the-art performance on two benchmarks ScreenSpot-Pro and ScreenSpot-v2. For instance, using both our proposed training and inference enhancement methods brings 23% grounding accuracy improvement over the best baseline on ScreenSpot-Pro.
PDF42August 11, 2025