飛びつく前に見よ:GUI自動化における術前エラー診断のためのGUI-Critic-R1モデル
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
June 5, 2025
著者: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
cs.AI
要旨
近年、マルチモーダル大規模言語モデル(MLLMs)は、グラフィカルユーザーインターフェース(GUI)自動化を含むマルチモーダル推論タスクに広く活用されています。一般的なオフラインのマルチモーダルタスクとは異なり、GUI自動化はオンラインのインタラクティブ環境で実行され、環境のリアルタイムの状態に基づいた段階的な意思決定が必要とされます。このタスクでは、各ステップでの意思決定エラーに対する許容度が低く、いかなるミスもプロセスを累積的に妨げ、削除や支払いなどの取り返しのつかない結果を招く可能性があります。これらの問題に対処するため、我々は事前操作批評メカニズムを導入し、実際の実行前に潜在的な結果とアクションの正しさを推論することで、効果的なフィードバックを提供します。具体的には、Suggestion-aware Gradient Relative Policy Optimization(S-GRPO)戦略を提案し、新たな提案報酬を組み込むことでモデルのフィードバックの信頼性を高めた事前操作批評モデルGUI-Critic-R1を構築します。さらに、推論ブートストラップに基づくデータ収集パイプラインを開発し、GUI-Critic-TrainとGUI-Critic-Testを作成することで、既存のGUI批評データのギャップを埋めます。モバイルとウェブの両ドメインにおけるGUI-Critic-Testでの静的実験により、我々のGUI-Critic-R1が現在のMLLMsと比較して批評精度において顕著な優位性を持つことが明らかになりました。GUI自動化ベンチマークでの動的評価では、成功率と操作効率の向上により、我々のモデルの有効性と優位性がさらに強調されています。
English
In recent years, Multimodal Large Language Models (MLLMs) have been
extensively utilized for multimodal reasoning tasks, including Graphical User
Interface (GUI) automation. Unlike general offline multimodal tasks, GUI
automation is executed in online interactive environments, necessitating
step-by-step decision-making based on real-time status of the environment. This
task has a lower tolerance for decision-making errors at each step, as any
mistakes may cumulatively disrupt the process and potentially lead to
irreversible outcomes like deletions or payments. To address these issues, we
introduce a pre-operative critic mechanism that provides effective feedback
prior to the actual execution, by reasoning about the potential outcome and
correctness of actions. Specifically, we propose a Suggestion-aware Gradient
Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative
critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance
the reliability of the model's feedback. Furthermore, we develop a
reasoning-bootstrapping based data collection pipeline to create a
GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic
data. Static experiments on the GUI-Critic-Test across both mobile and web
domains reveal that our GUI-Critic-R1 offers significant advantages in critic
accuracy compared to current MLLMs. Dynamic evaluation on GUI automation
benchmark further highlights the effectiveness and superiority of our model, as
evidenced by improved success rates and operational efficiency.