GUI-Reflection: Potenziare i Modelli Multimodali di GUI con l'Auto-Riflessione Comportamentale
GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior
June 9, 2025
Autori: Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato un grande potenziale nel rivoluzionare l'automazione delle Interfacce Grafiche Utente (GUI). Tuttavia, i modelli GUI esistenti si basano principalmente sull'apprendimento da traiettorie offline quasi prive di errori, mancando quindi di capacità di riflessione e recupero dagli errori. Per colmare questa lacuna, proponiamo GUI-Reflection, un framework innovativo che integra esplicitamente capacità di auto-riflessione e correzione degli errori nei modelli multimodali GUI end-to-end attraverso fasi di training dedicate: pre-training specifico per GUI, fine-tuning supervisionato offline (SFT) e tuning online basato sulla riflessione. GUI-Reflection consente l'emergere di comportamenti di auto-riflessione con processi di generazione dati e apprendimento completamente automatizzati, senza richiedere alcuna annotazione umana. Nello specifico, 1) proponiamo pipeline dati scalabili per costruire automaticamente dati di riflessione e correzione degli errori a partire da traiettorie di successo esistenti. Mentre i modelli GUI esistenti si concentrano principalmente sulle capacità di grounding e comprensione dell'interfaccia utente, proponiamo la GUI-Reflection Task Suite per apprendere e valutare esplicitamente capacità orientate alla riflessione. 2) Inoltre, abbiamo costruito un ambiente diversificato ed efficiente per il training online e la raccolta dati di modelli GUI su dispositivi mobili. 3) Presentiamo anche un algoritmo iterativo di tuning online basato sulla riflessione che sfrutta l'ambiente proposto, consentendo al modello di migliorare continuamente le sue capacità di riflessione e correzione degli errori. Il nostro framework fornisce agli agenti GUI capacità di auto-riflessione e correzione, aprendo la strada a un'automazione GUI più robusta, adattabile e intelligente, con tutti i dati, modelli, ambienti e strumenti che verranno rilasciati pubblicamente.
English
Multimodal Large Language Models (MLLMs) have shown great potential in
revolutionizing Graphical User Interface (GUI) automation. However, existing
GUI models mostly rely on learning from nearly error-free offline trajectories,
thus lacking reflection and error recovery capabilities. To bridge this gap, we
propose GUI-Reflection, a novel framework that explicitly integrates
self-reflection and error correction capabilities into end-to-end multimodal
GUI models throughout dedicated training stages: GUI-specific pre-training,
offline supervised fine-tuning (SFT), and online reflection tuning.
GUI-reflection enables self-reflection behavior emergence with fully automated
data generation and learning processes without requiring any human annotation.
Specifically, 1) we first propose scalable data pipelines to automatically
construct reflection and error correction data from existing successful
trajectories. While existing GUI models mainly focus on grounding and UI
understanding ability, we propose the GUI-Reflection Task Suite to learn and
evaluate reflection-oriented abilities explicitly. 2) Furthermore, we built a
diverse and efficient environment for online training and data collection of
GUI models on mobile devices. 3) We also present an iterative online reflection
tuning algorithm leveraging the proposed environment, enabling the model to
continuously enhance its reflection and error correction abilities. Our
framework equips GUI agents with self-reflection and correction capabilities,
paving the way for more robust, adaptable, and intelligent GUI automation, with
all data, models, environments, and tools to be released publicly.