GUI-Reflection: Potenziare i Modelli Multimodali di GUI con l'Auto-Riflessione Comportamentale

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato un grande potenziale nel rivoluzionare l'automazione delle Interfacce Grafiche Utente (GUI). Tuttavia, i modelli GUI esistenti si basano principalmente sull'apprendimento da traiettorie offline quasi prive di errori, mancando quindi di capacità di riflessione e recupero dagli errori. Per colmare questa lacuna, proponiamo GUI-Reflection, un framework innovativo che integra esplicitamente capacità di auto-riflessione e correzione degli errori nei modelli multimodali GUI end-to-end attraverso fasi di training dedicate: pre-training specifico per GUI, fine-tuning supervisionato offline (SFT) e tuning online basato sulla riflessione. GUI-Reflection consente l'emergere di comportamenti di auto-riflessione con processi di generazione dati e apprendimento completamente automatizzati, senza richiedere alcuna annotazione umana. Nello specifico, 1) proponiamo pipeline dati scalabili per costruire automaticamente dati di riflessione e correzione degli errori a partire da traiettorie di successo esistenti. Mentre i modelli GUI esistenti si concentrano principalmente sulle capacità di grounding e comprensione dell'interfaccia utente, proponiamo la GUI-Reflection Task Suite per apprendere e valutare esplicitamente capacità orientate alla riflessione. 2) Inoltre, abbiamo costruito un ambiente diversificato ed efficiente per il training online e la raccolta dati di modelli GUI su dispositivi mobili. 3) Presentiamo anche un algoritmo iterativo di tuning online basato sulla riflessione che sfrutta l'ambiente proposto, consentendo al modello di migliorare continuamente le sue capacità di riflessione e correzione degli errori. Il nostro framework fornisce agli agenti GUI capacità di auto-riflessione e correzione, aprendo la strada a un'automazione GUI più robusta, adattabile e intelligente, con tutti i dati, modelli, ambienti e strumenti che verranno rilasciati pubblicamente.

English

Multimodal Large Language Models (MLLMs) have shown great potential in revolutionizing Graphical User Interface (GUI) automation. However, existing GUI models mostly rely on learning from nearly error-free offline trajectories, thus lacking reflection and error recovery capabilities. To bridge this gap, we propose GUI-Reflection, a novel framework that explicitly integrates self-reflection and error correction capabilities into end-to-end multimodal GUI models throughout dedicated training stages: GUI-specific pre-training, offline supervised fine-tuning (SFT), and online reflection tuning. GUI-reflection enables self-reflection behavior emergence with fully automated data generation and learning processes without requiring any human annotation. Specifically, 1) we first propose scalable data pipelines to automatically construct reflection and error correction data from existing successful trajectories. While existing GUI models mainly focus on grounding and UI understanding ability, we propose the GUI-Reflection Task Suite to learn and evaluate reflection-oriented abilities explicitly. 2) Furthermore, we built a diverse and efficient environment for online training and data collection of GUI models on mobile devices. 3) We also present an iterative online reflection tuning algorithm leveraging the proposed environment, enabling the model to continuously enhance its reflection and error correction abilities. Our framework equips GUI agents with self-reflection and correction capabilities, paving the way for more robust, adaptable, and intelligent GUI automation, with all data, models, environments, and tools to be released publicly.

GUI-Reflection: Potenziare i Modelli Multimodali di GUI con l'Auto-Riflessione Comportamentale

GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

Abstract

Support