Mira Antes de Saltar: Un Modelo GUI-Critic-R1 para el Diagnóstico de Errores Preoperatorios en la Automatización de Interfaces Gráficas
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
June 5, 2025
Autores: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
cs.AI
Resumen
En los últimos años, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han sido ampliamente utilizados para tareas de razonamiento multimodal, incluyendo la automatización de Interfaces Gráficas de Usuario (GUI). A diferencia de las tareas multimodales generales realizadas fuera de línea, la automatización de GUI se ejecuta en entornos interactivos en línea, lo que requiere una toma de decisiones paso a paso basada en el estado en tiempo real del entorno. Esta tarea tiene una menor tolerancia a errores en la toma de decisiones en cada paso, ya que cualquier error puede acumularse, interrumpir el proceso y potencialmente llevar a resultados irreversibles, como eliminaciones o pagos. Para abordar estos problemas, introducimos un mecanismo de crítica preoperativa que proporciona retroalimentación efectiva antes de la ejecución real, razonando sobre el resultado potencial y la corrección de las acciones. Específicamente, proponemos una estrategia de Optimización de Política Relativa con Gradiente Consciente de Sugerencias (S-GRPO, por sus siglas en inglés) para construir nuestro modelo de crítica preoperativa GUI-Critic-R1, incorporando una nueva recompensa de sugerencia para mejorar la confiabilidad de la retroalimentación del modelo. Además, desarrollamos una canalización de recolección de datos basada en razonamiento incremental para crear un conjunto de datos de entrenamiento (GUI-Critic-Train) y otro de prueba (GUI-Critic-Test), llenando así los vacíos existentes en los datos de crítica de GUI. Los experimentos estáticos en el conjunto GUI-Critic-Test, tanto en dominios móviles como web, revelan que nuestro GUI-Critic-R1 ofrece ventajas significativas en precisión de crítica en comparación con los MLLMs actuales. La evaluación dinámica en un punto de referencia de automatización de GUI destaca aún más la efectividad y superioridad de nuestro modelo, evidenciada por tasas de éxito mejoradas y una mayor eficiencia operativa.
English
In recent years, Multimodal Large Language Models (MLLMs) have been
extensively utilized for multimodal reasoning tasks, including Graphical User
Interface (GUI) automation. Unlike general offline multimodal tasks, GUI
automation is executed in online interactive environments, necessitating
step-by-step decision-making based on real-time status of the environment. This
task has a lower tolerance for decision-making errors at each step, as any
mistakes may cumulatively disrupt the process and potentially lead to
irreversible outcomes like deletions or payments. To address these issues, we
introduce a pre-operative critic mechanism that provides effective feedback
prior to the actual execution, by reasoning about the potential outcome and
correctness of actions. Specifically, we propose a Suggestion-aware Gradient
Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative
critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance
the reliability of the model's feedback. Furthermore, we develop a
reasoning-bootstrapping based data collection pipeline to create a
GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic
data. Static experiments on the GUI-Critic-Test across both mobile and web
domains reveal that our GUI-Critic-R1 offers significant advantages in critic
accuracy compared to current MLLMs. Dynamic evaluation on GUI automation
benchmark further highlights the effectiveness and superiority of our model, as
evidenced by improved success rates and operational efficiency.