ChatPaper.aiChatPaper

UI-AGILE: 효과적인 강화 학습과 정밀한 추론 시점 그라운딩을 통해 GUI 에이전트 발전시키기

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

July 29, 2025
저자: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li
cs.AI

초록

멀티모달 대형 언어 모델(MLLM)의 등장은 그래픽 사용자 인터페이스(GUI) 에이전트의 능력에 있어 상당한 발전을 이끌어냈습니다. 그러나 기존의 GUI 에이전트 훈련 및 추론 기술은 여전히 추론 설계의 딜레마, 비효율적인 보상, 그리고 시각적 노이즈와 같은 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 훈련과 추론 단계 모두에서 GUI 에이전트를 향상시키는 포괄적인 프레임워크인 UI-AGILE을 소개합니다. 훈련 단계에서는, 지도 미세 조정(SFT) 과정에 대한 일련의 개선 사항을 제안합니다: 1) 고정밀 그라운딩을 장려하기 위한 연속 보상 함수; 2) 계획과 속도, 그라운딩 정확도 사이의 균형을 맞추기 위한 "단순 사고" 보상; 그리고 3) 복잡한 작업에서의 학습을 개선하고 희소 보상 문제를 완화하기 위한 크롭핑 기반 리샘플링 전략. 추론 단계에서는, 고해상도 디스플레이에서 그라운딩 정확도를 크게 향상시키기 위해 이미지를 더 작고 관리 가능한 부분으로 나누는 새로운 방법인 분해된 그라운딩과 선택을 제시합니다. 실험 결과, UI-AGILE은 ScreenSpot-Pro와 ScreenSpot-v2 두 벤치마크에서 최첨단 성능을 달성했습니다. 예를 들어, 우리가 제안한 훈련 및 추론 개선 방법을 모두 사용했을 때 ScreenSpot-Pro에서 최고의 베이스라인 대비 23%의 그라운딩 정확도 향상을 보였습니다.
English
The emergence of Multimodal Large Language Models (MLLMs) has driven significant advances in Graphical User Interface (GUI) agent capabilities. Nevertheless, existing GUI agent training and inference techniques still suffer from a dilemma for reasoning designs, ineffective reward, and visual noise. To address these issues, we introduce UI-AGILE, a comprehensive framework enhancing GUI agents at both the training and inference stages. For training, we propose a suite of improvements to the Supervised Fine-Tuning (SFT) process: 1) a Continuous Reward function to incentivize high-precision grounding; 2) a "Simple Thinking" reward to balance planning with speed and grounding accuracy; and 3) a Cropping-based Resampling strategy to mitigate the sparse reward problem and improve learning on complex tasks. For inference, we present Decomposed Grounding with Selection, a novel method that dramatically improves grounding accuracy on high-resolution displays by breaking the image into smaller, manageable parts. Experiments show that UI-AGILE achieves the state-of-the-art performance on two benchmarks ScreenSpot-Pro and ScreenSpot-v2. For instance, using both our proposed training and inference enhancement methods brings 23% grounding accuracy improvement over the best baseline on ScreenSpot-Pro.
PDF42August 11, 2025