GUI-Reflection: マルチモーダルGUIモデルを自己反映で強化する行動
GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior
June 9, 2025
著者: Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、グラフィカルユーザーインターフェース(GUI)自動化の革新において大きな可能性を示しています。しかし、既存のGUIモデルはほとんどがエラーのないオフライン軌跡からの学習に依存しており、反省とエラー回復能力が欠如しています。このギャップを埋めるため、我々はGUI-Reflectionを提案します。これは、GUI固有の事前学習、オフライン教師ありファインチューニング(SFT)、オンライン反省チューニングという専用のトレーニング段階を通じて、自己反省とエラー修正能力をエンドツーエンドのマルチモーダルGUIモデルに明示的に統合する新しいフレームワークです。GUI-Reflectionは、人間のアノテーションを一切必要とせず、完全に自動化されたデータ生成と学習プロセスにより、自己反省行動の出現を可能にします。具体的には、1)既存の成功軌跡から反省とエラー修正データを自動的に構築するためのスケーラブルなデータパイプラインを提案します。既存のGUIモデルが主にグラウンディングとUI理解能力に焦点を当てているのに対し、我々はGUI-Reflection Task Suiteを提案し、反省指向の能力を明示的に学習・評価します。2)さらに、モバイルデバイス上でのGUIモデルのオンライントレーニングとデータ収集のための多様で効率的な環境を構築しました。3)また、提案された環境を活用した反復的なオンライン反省チューニングアルゴリズムを提示し、モデルがその反省とエラー修正能力を継続的に向上できるようにします。我々のフレームワークは、GUIエージェントに自己反省と修正能力を備えさせ、より堅牢で適応性があり、知的なGUI自動化への道を開きます。すべてのデータ、モデル、環境、ツールは公開される予定です。
English
Multimodal Large Language Models (MLLMs) have shown great potential in
revolutionizing Graphical User Interface (GUI) automation. However, existing
GUI models mostly rely on learning from nearly error-free offline trajectories,
thus lacking reflection and error recovery capabilities. To bridge this gap, we
propose GUI-Reflection, a novel framework that explicitly integrates
self-reflection and error correction capabilities into end-to-end multimodal
GUI models throughout dedicated training stages: GUI-specific pre-training,
offline supervised fine-tuning (SFT), and online reflection tuning.
GUI-reflection enables self-reflection behavior emergence with fully automated
data generation and learning processes without requiring any human annotation.
Specifically, 1) we first propose scalable data pipelines to automatically
construct reflection and error correction data from existing successful
trajectories. While existing GUI models mainly focus on grounding and UI
understanding ability, we propose the GUI-Reflection Task Suite to learn and
evaluate reflection-oriented abilities explicitly. 2) Furthermore, we built a
diverse and efficient environment for online training and data collection of
GUI models on mobile devices. 3) We also present an iterative online reflection
tuning algorithm leveraging the proposed environment, enabling the model to
continuously enhance its reflection and error correction abilities. Our
framework equips GUI agents with self-reflection and correction capabilities,
paving the way for more robust, adaptable, and intelligent GUI automation, with
all data, models, environments, and tools to be released publicly.