Schau, bevor du springst: Ein GUI-Critic-R1-Modell zur präoperativen Fehlerdiagnose in der GUI-Automatisierung

papers.abstract

In den letzten Jahren wurden Multimodale Große Sprachmodelle (MLLMs) umfassend für multimodale Denkaufgaben eingesetzt, einschließlich der Automatisierung von Grafischen Benutzeroberflächen (GUIs). Im Gegensatz zu allgemeinen offline multimodalen Aufgaben wird die GUI-Automatisierung in interaktiven Online-Umgebungen ausgeführt, was eine schrittweise Entscheidungsfindung basierend auf dem Echtzeitstatus der Umgebung erfordert. Diese Aufgabe hat eine geringere Toleranz für Entscheidungsfehler in jedem Schritt, da sich Fehler kumulativ auf den Prozess auswirken und potenziell zu irreversiblen Ergebnissen wie Löschungen oder Zahlungen führen können. Um diese Probleme zu adressieren, führen wir einen präoperativen Kritikmechanismus ein, der effektives Feedback vor der tatsächlichen Ausführung liefert, indem er das potenzielle Ergebnis und die Korrektheit von Aktionen analysiert. Konkret schlagen wir eine Suggestion-aware Gradient Relative Policy Optimization (S-GRPO)-Strategie vor, um unser präoperatives Kritikmodell GUI-Critic-R1 zu konstruieren, das einen neuartigen Vorschlagsbonus integriert, um die Zuverlässigkeit des Modellfeedbacks zu erhöhen. Darüber hinaus entwickeln wir eine auf Reasoning-Bootstrapping basierende Datenerfassungspipeline, um ein GUI-Critic-Train und ein GUI-Critic-Test zu erstellen, wodurch bestehende Lücken in den GUI-Kritikdaten geschlossen werden. Statische Experimente auf dem GUI-Critic-Test in den Bereichen Mobilgeräte und Web zeigen, dass unser GUI-Critic-R1 signifikante Vorteile in der Kritikgenauigkeit im Vergleich zu aktuellen MLLMs bietet. Die dynamische Bewertung auf einem GUI-Automatisierungs-Benchmark unterstreicht weiterhin die Effektivität und Überlegenheit unseres Modells, was sich in verbesserten Erfolgsraten und Betriebseffizienz widerspiegelt.

English

In recent years, Multimodal Large Language Models (MLLMs) have been extensively utilized for multimodal reasoning tasks, including Graphical User Interface (GUI) automation. Unlike general offline multimodal tasks, GUI automation is executed in online interactive environments, necessitating step-by-step decision-making based on real-time status of the environment. This task has a lower tolerance for decision-making errors at each step, as any mistakes may cumulatively disrupt the process and potentially lead to irreversible outcomes like deletions or payments. To address these issues, we introduce a pre-operative critic mechanism that provides effective feedback prior to the actual execution, by reasoning about the potential outcome and correctness of actions. Specifically, we propose a Suggestion-aware Gradient Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance the reliability of the model's feedback. Furthermore, we develop a reasoning-bootstrapping based data collection pipeline to create a GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic data. Static experiments on the GUI-Critic-Test across both mobile and web domains reveal that our GUI-Critic-R1 offers significant advantages in critic accuracy compared to current MLLMs. Dynamic evaluation on GUI automation benchmark further highlights the effectiveness and superiority of our model, as evidenced by improved success rates and operational efficiency.

Schau, bevor du springst: Ein GUI-Critic-R1-Modell zur präoperativen Fehlerdiagnose in der GUI-Automatisierung

Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation

papers.abstract

Support