Guarda Prima di Saltare: Un Modello GUI-Critic-R1 per la Diagnosi Pre-Operativa degli Errori nell'Automazione delle Interfacce Grafiche
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
June 5, 2025
Autori: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
cs.AI
Abstract
Negli ultimi anni, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) sono stati ampiamente utilizzati per compiti di ragionamento multimodale, inclusa l'automazione delle Interfacce Grafiche Utente (GUI). A differenza dei compiti multimodali offline generali, l'automazione delle GUI viene eseguita in ambienti interattivi online, richiedendo un processo decisionale passo-passo basato sullo stato in tempo reale dell'ambiente. Questo compito ha una tolleranza inferiore per gli errori decisionali in ogni fase, poiché eventuali errori possono accumularsi e interrompere il processo, portando potenzialmente a risultati irreversibili come cancellazioni o pagamenti. Per affrontare questi problemi, introduciamo un meccanismo critico pre-operativo che fornisce un feedback efficace prima dell'esecuzione effettiva, ragionando sul potenziale risultato e sulla correttezza delle azioni. Nello specifico, proponiamo una strategia di Ottimizzazione Relativa delle Politiche con Gradiente Consapevole dei Suggerimenti (S-GRPO) per costruire il nostro modello critico pre-operativo GUI-Critic-R1, incorporando una nuova ricompensa basata sui suggerimenti per migliorare l'affidabilità del feedback del modello. Inoltre, sviluppiamo una pipeline di raccolta dati basata sul ragionamento incrementale per creare un GUI-Critic-Train e un GUI-Critic-Test, colmando le lacune esistenti nei dati critici delle GUI. Esperimenti statici sul GUI-Critic-Test in ambiti sia mobili che web rivelano che il nostro GUI-Critic-R1 offre vantaggi significativi in termini di accuratezza critica rispetto agli attuali MLLMs. La valutazione dinamica su benchmark di automazione delle GUI evidenzia ulteriormente l'efficacia e la superiorità del nostro modello, come dimostrato dai miglioramenti nei tassi di successo e nell'efficienza operativa.
English
In recent years, Multimodal Large Language Models (MLLMs) have been
extensively utilized for multimodal reasoning tasks, including Graphical User
Interface (GUI) automation. Unlike general offline multimodal tasks, GUI
automation is executed in online interactive environments, necessitating
step-by-step decision-making based on real-time status of the environment. This
task has a lower tolerance for decision-making errors at each step, as any
mistakes may cumulatively disrupt the process and potentially lead to
irreversible outcomes like deletions or payments. To address these issues, we
introduce a pre-operative critic mechanism that provides effective feedback
prior to the actual execution, by reasoning about the potential outcome and
correctness of actions. Specifically, we propose a Suggestion-aware Gradient
Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative
critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance
the reliability of the model's feedback. Furthermore, we develop a
reasoning-bootstrapping based data collection pipeline to create a
GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic
data. Static experiments on the GUI-Critic-Test across both mobile and web
domains reveal that our GUI-Critic-R1 offers significant advantages in critic
accuracy compared to current MLLMs. Dynamic evaluation on GUI automation
benchmark further highlights the effectiveness and superiority of our model, as
evidenced by improved success rates and operational efficiency.