Смотри, прежде чем прыгнуть: Модель GUI-Critic-R1 для предоперационной диагностики ошибок в автоматизации графического интерфейса
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
June 5, 2025
Авторы: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
cs.AI
Аннотация
В последние годы многомодальные большие языковые модели (MLLMs) широко используются для задач многомодального рассуждения, включая автоматизацию графических пользовательских интерфейсов (GUI). В отличие от общих офлайн-задач, автоматизация GUI выполняется в интерактивных онлайн-средах, что требует пошагового принятия решений на основе текущего состояния среды. Эта задача имеет меньшую терпимость к ошибкам на каждом шаге, так как любые ошибки могут накапливаться, нарушая процесс и потенциально приводя к необратимым последствиям, таким как удаления или платежи. Для решения этих проблем мы вводим механизм предоперационной критики, который предоставляет эффективную обратную связь до фактического выполнения, анализируя потенциальные результаты и корректность действий. В частности, мы предлагаем стратегию Suggestion-aware Gradient Relative Policy Optimization (S-GRPO) для построения нашей модели предоперационной критики GUI-Critic-R1, включая новую награду за предложения для повышения надежности обратной связи модели. Кроме того, мы разрабатываем конвейер сбора данных на основе рассуждений для создания наборов GUI-Critic-Train и GUI-Critic-Test, заполняя существующие пробелы в данных для критики GUI. Статические эксперименты на GUI-Critic-Test в мобильных и веб-доменах показывают, что наш GUI-Critic-R1 обладает значительными преимуществами в точности критики по сравнению с текущими MLLMs. Динамическая оценка на бенчмарке автоматизации GUI дополнительно подчеркивает эффективность и превосходство нашей модели, что подтверждается улучшенными показателями успешности и операционной эффективности.
English
In recent years, Multimodal Large Language Models (MLLMs) have been
extensively utilized for multimodal reasoning tasks, including Graphical User
Interface (GUI) automation. Unlike general offline multimodal tasks, GUI
automation is executed in online interactive environments, necessitating
step-by-step decision-making based on real-time status of the environment. This
task has a lower tolerance for decision-making errors at each step, as any
mistakes may cumulatively disrupt the process and potentially lead to
irreversible outcomes like deletions or payments. To address these issues, we
introduce a pre-operative critic mechanism that provides effective feedback
prior to the actual execution, by reasoning about the potential outcome and
correctness of actions. Specifically, we propose a Suggestion-aware Gradient
Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative
critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance
the reliability of the model's feedback. Furthermore, we develop a
reasoning-bootstrapping based data collection pipeline to create a
GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic
data. Static experiments on the GUI-Critic-Test across both mobile and web
domains reveal that our GUI-Critic-R1 offers significant advantages in critic
accuracy compared to current MLLMs. Dynamic evaluation on GUI automation
benchmark further highlights the effectiveness and superiority of our model, as
evidenced by improved success rates and operational efficiency.