GUI-Reflection : Renforcer les modèles d'interface graphique multimodale par l'auto-réflexion comportementale
GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior
June 9, 2025
Auteurs: Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré un potentiel considérable pour révolutionner l'automatisation des interfaces graphiques utilisateur (GUI). Cependant, les modèles de GUI existants reposent principalement sur l'apprentissage à partir de trajectoires hors ligne quasi exemptes d'erreurs, manquant ainsi de capacités de réflexion et de récupération d'erreurs. Pour combler cette lacune, nous proposons GUI-Reflection, un cadre novateur qui intègre explicitement des capacités d'auto-réflexion et de correction d'erreurs dans les modèles de GUI multimodaux de bout en bout, à travers des étapes de formation dédiées : pré-entraînement spécifique à la GUI, fine-tuning supervisé hors ligne (SFT), et ajustement en ligne par réflexion. GUI-Reflection permet l'émergence de comportements d'auto-réflexion grâce à des processus de génération de données et d'apprentissage entièrement automatisés, sans nécessiter aucune annotation humaine. Plus précisément, 1) nous proposons d'abord des pipelines de données évolutifs pour construire automatiquement des données de réflexion et de correction d'erreurs à partir de trajectoires réussies existantes. Alors que les modèles de GUI existants se concentrent principalement sur les capacités de compréhension et d'ancrage dans l'interface utilisateur, nous proposons la Suite de Tâches GUI-Reflection pour apprendre et évaluer explicitement les capacités orientées vers la réflexion. 2) En outre, nous avons construit un environnement diversifié et efficace pour l'entraînement en ligne et la collecte de données des modèles de GUI sur les appareils mobiles. 3) Nous présentons également un algorithme itératif d'ajustement en ligne par réflexion, exploitant l'environnement proposé, permettant au modèle d'améliorer continuellement ses capacités de réflexion et de correction d'erreurs. Notre cadre dote les agents de GUI de capacités d'auto-réflexion et de correction, ouvrant la voie à une automatisation des GUI plus robuste, adaptable et intelligente, avec toutes les données, modèles, environnements et outils qui seront rendus publics.
English
Multimodal Large Language Models (MLLMs) have shown great potential in
revolutionizing Graphical User Interface (GUI) automation. However, existing
GUI models mostly rely on learning from nearly error-free offline trajectories,
thus lacking reflection and error recovery capabilities. To bridge this gap, we
propose GUI-Reflection, a novel framework that explicitly integrates
self-reflection and error correction capabilities into end-to-end multimodal
GUI models throughout dedicated training stages: GUI-specific pre-training,
offline supervised fine-tuning (SFT), and online reflection tuning.
GUI-reflection enables self-reflection behavior emergence with fully automated
data generation and learning processes without requiring any human annotation.
Specifically, 1) we first propose scalable data pipelines to automatically
construct reflection and error correction data from existing successful
trajectories. While existing GUI models mainly focus on grounding and UI
understanding ability, we propose the GUI-Reflection Task Suite to learn and
evaluate reflection-oriented abilities explicitly. 2) Furthermore, we built a
diverse and efficient environment for online training and data collection of
GUI models on mobile devices. 3) We also present an iterative online reflection
tuning algorithm leveraging the proposed environment, enabling the model to
continuously enhance its reflection and error correction abilities. Our
framework equips GUI agents with self-reflection and correction capabilities,
paving the way for more robust, adaptable, and intelligent GUI automation, with
all data, models, environments, and tools to be released publicly.