Olhe Antes de Pular: Um Modelo GUI-Critic-R1 para Diagnóstico de Erros Pré-Operacionais em Automação de Interface Gráfica
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
June 5, 2025
Autores: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
cs.AI
Resumo
Nos últimos anos, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm sido amplamente utilizados para tarefas de raciocínio multimodal, incluindo a automação de Interfaces Gráficas de Usuário (GUIs). Diferente de tarefas multimodais offline gerais, a automação de GUI é executada em ambientes interativos online, exigindo tomadas de decisão passo a passo com base no estado em tempo real do ambiente. Essa tarefa possui uma tolerância menor para erros de decisão em cada etapa, já que qualquer erro pode se acumular e interromper o processo, potencialmente levando a resultados irreversíveis, como exclusões ou pagamentos. Para abordar esses problemas, introduzimos um mecanismo crítico pré-operatório que fornece feedback eficaz antes da execução real, ao raciocinar sobre o resultado potencial e a correção das ações. Especificamente, propomos uma estratégia de Otimização de Política Relativa com Gradiente Consciente de Sugestões (S-GRPO) para construir nosso modelo crítico pré-operatório GUI-Critic-R1, incorporando uma nova recompensa de sugestão para aumentar a confiabilidade do feedback do modelo. Além disso, desenvolvemos um pipeline de coleta de dados baseado em raciocínio inicial (reasoning-bootstrapping) para criar um GUI-Critic-Train e um GUI-Critic-Test, preenchendo lacunas existentes em dados críticos de GUI. Experimentos estáticos no GUI-Critic-Test em domínios móveis e web revelam que nosso GUI-Critic-R1 oferece vantagens significativas em precisão crítica em comparação com os MLLMs atuais. A avaliação dinâmica em benchmarks de automação de GUI destaca ainda mais a eficácia e superioridade do nosso modelo, evidenciada por taxas de sucesso e eficiência operacional aprimoradas.
English
In recent years, Multimodal Large Language Models (MLLMs) have been
extensively utilized for multimodal reasoning tasks, including Graphical User
Interface (GUI) automation. Unlike general offline multimodal tasks, GUI
automation is executed in online interactive environments, necessitating
step-by-step decision-making based on real-time status of the environment. This
task has a lower tolerance for decision-making errors at each step, as any
mistakes may cumulatively disrupt the process and potentially lead to
irreversible outcomes like deletions or payments. To address these issues, we
introduce a pre-operative critic mechanism that provides effective feedback
prior to the actual execution, by reasoning about the potential outcome and
correctness of actions. Specifically, we propose a Suggestion-aware Gradient
Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative
critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance
the reliability of the model's feedback. Furthermore, we develop a
reasoning-bootstrapping based data collection pipeline to create a
GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic
data. Static experiments on the GUI-Critic-Test across both mobile and web
domains reveal that our GUI-Critic-R1 offers significant advantages in critic
accuracy compared to current MLLMs. Dynamic evaluation on GUI automation
benchmark further highlights the effectiveness and superiority of our model, as
evidenced by improved success rates and operational efficiency.