도약하기 전에 살펴보라: GUI 자동화에서 수술 전 오류 진단을 위한 GUI-Critic-R1 모델
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
June 5, 2025
저자: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
cs.AI
초록
최근 멀티모달 대형 언어 모델(MLLMs)은 그래픽 사용자 인터페이스(GUI) 자동화를 포함한 멀티모달 추론 작업에 광범위하게 활용되고 있습니다. 일반적인 오프라인 멀티모달 작업과 달리, GUI 자동화는 온라인 상호작용 환경에서 실행되며, 환경의 실시간 상태를 기반으로 단계별 의사결정이 필요합니다. 이 작업은 각 단계에서 의사결정 오류에 대한 허용 범위가 낮으며, 어떤 실수라도 누적되어 프로세스를 방해하고 삭제나 결제와 같은 되돌릴 수 없는 결과를 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 실제 실행 전에 잠재적인 결과와 행동의 정확성을 추론하여 효과적인 피드백을 제공하는 사전 실행 비평 메커니즘을 도입했습니다. 구체적으로, 우리는 Suggestion-aware Gradient Relative Policy Optimization(S-GRPO) 전략을 제안하여 사전 실행 비평 모델 GUI-Critic-R1을 구축하고, 모델의 피드백 신뢰성을 향상시키기 위한 새로운 제안 보상을 통합했습니다. 또한, 우리는 GUI 비평 데이터의 기존 격차를 메우기 위해 추론-부트스트래핑 기반 데이터 수집 파이프라인을 개발하여 GUI-Critic-Train과 GUI-Critic-Test를 생성했습니다. 모바일 및 웹 도메인에서 GUI-Critic-Test에 대한 정적 실험은 우리의 GUI-Critic-R1이 현재의 MLLMs에 비해 비평 정확도에서 상당한 이점을 제공한다는 것을 보여줍니다. GUI 자동화 벤치마크에 대한 동적 평가는 우리 모델의 효과성과 우수성을 입증하며, 개선된 성공률과 운영 효율성으로 그 성과를 입증했습니다.
English
In recent years, Multimodal Large Language Models (MLLMs) have been
extensively utilized for multimodal reasoning tasks, including Graphical User
Interface (GUI) automation. Unlike general offline multimodal tasks, GUI
automation is executed in online interactive environments, necessitating
step-by-step decision-making based on real-time status of the environment. This
task has a lower tolerance for decision-making errors at each step, as any
mistakes may cumulatively disrupt the process and potentially lead to
irreversible outcomes like deletions or payments. To address these issues, we
introduce a pre-operative critic mechanism that provides effective feedback
prior to the actual execution, by reasoning about the potential outcome and
correctness of actions. Specifically, we propose a Suggestion-aware Gradient
Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative
critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance
the reliability of the model's feedback. Furthermore, we develop a
reasoning-bootstrapping based data collection pipeline to create a
GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic
data. Static experiments on the GUI-Critic-Test across both mobile and web
domains reveal that our GUI-Critic-R1 offers significant advantages in critic
accuracy compared to current MLLMs. Dynamic evaluation on GUI automation
benchmark further highlights the effectiveness and superiority of our model, as
evidenced by improved success rates and operational efficiency.