Regardez avant de sauter : Un modèle GUI-Critic-R1 pour le diagnostic d'erreurs pré-opératoires dans l'automatisation des interfaces graphiques
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
June 5, 2025
Auteurs: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
cs.AI
Résumé
Ces dernières années, les modèles de langage multimodaux de grande taille (MLLMs) ont été largement utilisés pour des tâches de raisonnement multimodal, y compris l'automatisation des interfaces graphiques utilisateur (GUI). Contrairement aux tâches multimodales générales hors ligne, l'automatisation des GUI s'exécute dans des environnements interactifs en ligne, nécessitant une prise de décision étape par étape basée sur l'état en temps réel de l'environnement. Cette tâche présente une tolérance plus faible aux erreurs de décision à chaque étape, car toute erreur peut s'accumuler et perturber le processus, potentiellement conduisant à des résultats irréversibles tels que des suppressions ou des paiements. Pour résoudre ces problèmes, nous introduisons un mécanisme de critique pré-opératoire qui fournit un retour d'information efficace avant l'exécution réelle, en raisonnant sur le résultat potentiel et la justesse des actions. Plus précisément, nous proposons une stratégie d'optimisation de politique relative par gradient avec suggestion (S-GRPO) pour construire notre modèle de critique pré-opératoire GUI-Critic-R1, en intégrant une nouvelle récompense de suggestion pour améliorer la fiabilité du retour d'information du modèle. De plus, nous développons un pipeline de collecte de données basé sur le raisonnement par amorçage pour créer un ensemble d'entraînement GUI-Critic-Train et un ensemble de test GUI-Critic-Test, comblant ainsi les lacunes existantes dans les données de critique des GUI. Les expériences statiques sur l'ensemble de test GUI-Critic-Test, couvrant à la fois les domaines mobiles et web, révèlent que notre modèle GUI-Critic-R1 offre des avantages significatifs en termes de précision de critique par rapport aux MLLMs actuels. L'évaluation dynamique sur un benchmark d'automatisation des GUI met en évidence l'efficacité et la supériorité de notre modèle, comme en témoignent les taux de réussite améliorés et l'efficacité opérationnelle.
English
In recent years, Multimodal Large Language Models (MLLMs) have been
extensively utilized for multimodal reasoning tasks, including Graphical User
Interface (GUI) automation. Unlike general offline multimodal tasks, GUI
automation is executed in online interactive environments, necessitating
step-by-step decision-making based on real-time status of the environment. This
task has a lower tolerance for decision-making errors at each step, as any
mistakes may cumulatively disrupt the process and potentially lead to
irreversible outcomes like deletions or payments. To address these issues, we
introduce a pre-operative critic mechanism that provides effective feedback
prior to the actual execution, by reasoning about the potential outcome and
correctness of actions. Specifically, we propose a Suggestion-aware Gradient
Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative
critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance
the reliability of the model's feedback. Furthermore, we develop a
reasoning-bootstrapping based data collection pipeline to create a
GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic
data. Static experiments on the GUI-Critic-Test across both mobile and web
domains reveal that our GUI-Critic-R1 offers significant advantages in critic
accuracy compared to current MLLMs. Dynamic evaluation on GUI automation
benchmark further highlights the effectiveness and superiority of our model, as
evidenced by improved success rates and operational efficiency.