Schau, bevor du springst: Ein GUI-Critic-R1-Modell zur präoperativen Fehlerdiagnose in der GUI-Automatisierung
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
June 5, 2025
Autoren: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
cs.AI
Zusammenfassung
In den letzten Jahren wurden Multimodale Große Sprachmodelle (MLLMs) umfassend für multimodale Denkaufgaben eingesetzt, einschließlich der Automatisierung von Grafischen Benutzeroberflächen (GUIs). Im Gegensatz zu allgemeinen offline multimodalen Aufgaben wird die GUI-Automatisierung in interaktiven Online-Umgebungen ausgeführt, was eine schrittweise Entscheidungsfindung basierend auf dem Echtzeitstatus der Umgebung erfordert. Diese Aufgabe hat eine geringere Toleranz für Entscheidungsfehler in jedem Schritt, da sich Fehler kumulativ auf den Prozess auswirken und potenziell zu irreversiblen Ergebnissen wie Löschungen oder Zahlungen führen können. Um diese Probleme zu adressieren, führen wir einen präoperativen Kritikmechanismus ein, der effektives Feedback vor der tatsächlichen Ausführung liefert, indem er das potenzielle Ergebnis und die Korrektheit von Aktionen analysiert. Konkret schlagen wir eine Suggestion-aware Gradient Relative Policy Optimization (S-GRPO)-Strategie vor, um unser präoperatives Kritikmodell GUI-Critic-R1 zu konstruieren, das einen neuartigen Vorschlagsbonus integriert, um die Zuverlässigkeit des Modellfeedbacks zu erhöhen. Darüber hinaus entwickeln wir eine auf Reasoning-Bootstrapping basierende Datenerfassungspipeline, um ein GUI-Critic-Train und ein GUI-Critic-Test zu erstellen, wodurch bestehende Lücken in den GUI-Kritikdaten geschlossen werden. Statische Experimente auf dem GUI-Critic-Test in den Bereichen Mobilgeräte und Web zeigen, dass unser GUI-Critic-R1 signifikante Vorteile in der Kritikgenauigkeit im Vergleich zu aktuellen MLLMs bietet. Die dynamische Bewertung auf einem GUI-Automatisierungs-Benchmark unterstreicht weiterhin die Effektivität und Überlegenheit unseres Modells, was sich in verbesserten Erfolgsraten und Betriebseffizienz widerspiegelt.
English
In recent years, Multimodal Large Language Models (MLLMs) have been
extensively utilized for multimodal reasoning tasks, including Graphical User
Interface (GUI) automation. Unlike general offline multimodal tasks, GUI
automation is executed in online interactive environments, necessitating
step-by-step decision-making based on real-time status of the environment. This
task has a lower tolerance for decision-making errors at each step, as any
mistakes may cumulatively disrupt the process and potentially lead to
irreversible outcomes like deletions or payments. To address these issues, we
introduce a pre-operative critic mechanism that provides effective feedback
prior to the actual execution, by reasoning about the potential outcome and
correctness of actions. Specifically, we propose a Suggestion-aware Gradient
Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative
critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance
the reliability of the model's feedback. Furthermore, we develop a
reasoning-bootstrapping based data collection pipeline to create a
GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic
data. Static experiments on the GUI-Critic-Test across both mobile and web
domains reveal that our GUI-Critic-R1 offers significant advantages in critic
accuracy compared to current MLLMs. Dynamic evaluation on GUI automation
benchmark further highlights the effectiveness and superiority of our model, as
evidenced by improved success rates and operational efficiency.