Kijk Voordat Je Springt: Een GUI-Critic-R1 Model voor Pre-Operatieve Foutdiagnose in GUI-automatisering
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
June 5, 2025
Auteurs: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
cs.AI
Samenvatting
De afgelopen jaren zijn Multimodale Grote Taalmodellen (MLLMs) uitgebreid gebruikt voor multimodale redeneertaken, waaronder de automatisering van Grafische Gebruikersinterfaces (GUI's). In tegenstelling tot algemene offline multimodale taken wordt GUI-automatisering uitgevoerd in online interactieve omgevingen, wat stap-voor-stap besluitvorming vereist op basis van de real-time status van de omgeving. Deze taak heeft een lagere tolerantie voor besluitvormingsfouten bij elke stap, aangezien eventuele fouten cumulatief het proces kunnen verstoren en mogelijk kunnen leiden tot onomkeerbare uitkomsten zoals verwijderingen of betalingen. Om deze problemen aan te pakken, introduceren we een pre-operatief criticusmechanisme dat effectieve feedback geeft vóór de daadwerkelijke uitvoering, door te redeneren over het potentiële resultaat en de juistheid van acties. Specifiek stellen we een Suggestion-aware Gradient Relative Policy Optimization (S-GRPO)-strategie voor om ons pre-operatieve criticusmodel GUI-Critic-R1 te construeren, waarbij een nieuwe suggestiebeloning wordt geïntegreerd om de betrouwbaarheid van de feedback van het model te vergroten. Bovendien ontwikkelen we een op redenering gebaseerde dataverzamelingspijplijn om een GUI-Critic-Train en een GUI-Critic-Test te creëren, waardoor bestaande lacunes in GUI-criticusdata worden opgevuld. Statische experimenten op de GUI-Critic-Test in zowel mobiele als webdomeinen laten zien dat onze GUI-Critic-R1 aanzienlijke voordelen biedt op het gebied van criticusnauwkeurigheid in vergelijking met huidige MLLMs. Dynamische evaluatie op een GUI-automatiseringsbenchmark benadrukt verder de effectiviteit en superioriteit van ons model, zoals blijkt uit verbeterde slagingspercentages en operationele efficiëntie.
English
In recent years, Multimodal Large Language Models (MLLMs) have been
extensively utilized for multimodal reasoning tasks, including Graphical User
Interface (GUI) automation. Unlike general offline multimodal tasks, GUI
automation is executed in online interactive environments, necessitating
step-by-step decision-making based on real-time status of the environment. This
task has a lower tolerance for decision-making errors at each step, as any
mistakes may cumulatively disrupt the process and potentially lead to
irreversible outcomes like deletions or payments. To address these issues, we
introduce a pre-operative critic mechanism that provides effective feedback
prior to the actual execution, by reasoning about the potential outcome and
correctness of actions. Specifically, we propose a Suggestion-aware Gradient
Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative
critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance
the reliability of the model's feedback. Furthermore, we develop a
reasoning-bootstrapping based data collection pipeline to create a
GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic
data. Static experiments on the GUI-Critic-Test across both mobile and web
domains reveal that our GUI-Critic-R1 offers significant advantages in critic
accuracy compared to current MLLMs. Dynamic evaluation on GUI automation
benchmark further highlights the effectiveness and superiority of our model, as
evidenced by improved success rates and operational efficiency.