ChatPaper.aiChatPaper

GUI-Reflection: Capacitando Modelos Multimodais de GUI com Auto-Reflexão Comportamental

GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

June 9, 2025
Autores: Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado grande potencial para revolucionar a automação de Interfaces Gráficas de Usuário (GUIs). No entanto, os modelos de GUI existentes dependem principalmente do aprendizado a partir de trajetórias offline quase livres de erros, carecendo, assim, de capacidades de reflexão e recuperação de erros. Para preencher essa lacuna, propomos o GUI-Reflection, um novo framework que integra explicitamente capacidades de autorreflexão e correção de erros em modelos multimodais de GUI de ponta a ponta, ao longo de estágios de treinamento dedicados: pré-treinamento específico para GUI, ajuste fino supervisionado offline (SFT) e ajuste de reflexão online. O GUI-Reflection possibilita a emergência de comportamentos de autorreflexão com processos totalmente automatizados de geração de dados e aprendizado, sem exigir qualquer anotação humana. Especificamente, 1) primeiro propomos pipelines de dados escaláveis para construir automaticamente dados de reflexão e correção de erros a partir de trajetórias bem-sucedidas existentes. Enquanto os modelos de GUI existentes focam principalmente na capacidade de fundamentação e compreensão de UI, propomos o Conjunto de Tarefas GUI-Reflection para aprender e avaliar explicitamente habilidades orientadas à reflexão. 2) Além disso, construímos um ambiente diversificado e eficiente para treinamento online e coleta de dados de modelos de GUI em dispositivos móveis. 3) Também apresentamos um algoritmo iterativo de ajuste de reflexão online que aproveita o ambiente proposto, permitindo que o modelo aprimore continuamente suas habilidades de reflexão e correção de erros. Nosso framework equipa agentes de GUI com capacidades de autorreflexão e correção, abrindo caminho para uma automação de GUI mais robusta, adaptável e inteligente, com todos os dados, modelos, ambientes e ferramentas a serem disponibilizados publicamente.
English
Multimodal Large Language Models (MLLMs) have shown great potential in revolutionizing Graphical User Interface (GUI) automation. However, existing GUI models mostly rely on learning from nearly error-free offline trajectories, thus lacking reflection and error recovery capabilities. To bridge this gap, we propose GUI-Reflection, a novel framework that explicitly integrates self-reflection and error correction capabilities into end-to-end multimodal GUI models throughout dedicated training stages: GUI-specific pre-training, offline supervised fine-tuning (SFT), and online reflection tuning. GUI-reflection enables self-reflection behavior emergence with fully automated data generation and learning processes without requiring any human annotation. Specifically, 1) we first propose scalable data pipelines to automatically construct reflection and error correction data from existing successful trajectories. While existing GUI models mainly focus on grounding and UI understanding ability, we propose the GUI-Reflection Task Suite to learn and evaluate reflection-oriented abilities explicitly. 2) Furthermore, we built a diverse and efficient environment for online training and data collection of GUI models on mobile devices. 3) We also present an iterative online reflection tuning algorithm leveraging the proposed environment, enabling the model to continuously enhance its reflection and error correction abilities. Our framework equips GUI agents with self-reflection and correction capabilities, paving the way for more robust, adaptable, and intelligent GUI automation, with all data, models, environments, and tools to be released publicly.
PDF72June 10, 2025