ShowUI-π:GUI器用なハンドとしてのフローベース生成モデル
ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands
December 31, 2025
著者: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
要旨
巧みな操作を可能とする知的エージェントの構築は、ロボティクスとデジタル環境の両方において人間らしい自動化を実現する上で不可欠です。しかし、既存のGUIエージェントは離散的なクリック予測(x,y座標)に依存しており、連続的かつその場での知覚と調整を必要とする自由軌道(例えばプログレスバーのドラッグ)を実現できません。本研究では、GUI用の器用な手として初のフローベース生成モデルであるShowUI-πを開発し、以下の設計を特徴とします:(i) 統一離散-連続行動:離散クリックと連続ドラッグを単一モデルに統合し、多様なインタラクションモードへの柔軟な適応を可能にします;(ii) ドラッグモデリングのためのフローベース行動生成:軽量な行動エキスパートを通じて連続的な視覚観測からカーソルの微調整を予測し、滑らかで安定した軌道を保証します;(iii) ドラッグ学習データとベンチマーク:PowerPoint、Adobe Premiere Proなど5領域にわたる2万件のドラッグ軌道を手動収集・合成し、GUIエージェントのドラッグ能力を評価する包括的なオンライン/オフライン評価プロトコルを備えたベンチマークScreenDragを導入しました。実験では、プロプライエタリなGUIエージェントがScreenDragで苦戦する(Operatorは13.27、最高性能のGemini-2.5-CUAでも22.18)のに対し、ShowUI-πは僅か4億5千万パラメータで26.98を達成し、課題の難度と本手法の有効性を裏付けました。本研究成果がデジタル世界における人間らしい巧みな制御へのGUIエージェントの発展に寄与することを期待します。コードはhttps://github.com/showlab/showui-pi で公開されています。
English
Building intelligent agents capable of dexterous manipulation is essential for achieving human-like automation in both robotics and digital environments. However, existing GUI agents rely on discrete click predictions (x,y), which prohibits free-form, closed-loop trajectories (e.g. dragging a progress bar) that require continuous, on-the-fly perception and adjustment. In this work, we develop ShowUI-π, the first flow-based generative model as GUI dexterous hand, featuring the following designs: (i) Unified Discrete-Continuous Actions, integrating discrete clicks and continuous drags within a shared model, enabling flexible adaptation across diverse interaction modes; (ii) Flow-based Action Generation for drag modeling, which predicts incremental cursor adjustments from continuous visual observations via a lightweight action expert, ensuring smooth and stable trajectories; (iii) Drag Training data and Benchmark, where we manually collect and synthesize 20K drag trajectories across five domains (e.g. PowerPoint, Adobe Premiere Pro), and introduce ScreenDrag, a benchmark with comprehensive online and offline evaluation protocols for assessing GUI agents' drag capabilities. Our experiments show that proprietary GUI agents still struggle on ScreenDrag (e.g. Operator scores 13.27, and the best Gemini-2.5-CUA reaches 22.18). In contrast, ShowUI-π achieves 26.98 with only 450M parameters, underscoring both the difficulty of the task and the effectiveness of our approach. We hope this work advances GUI agents toward human-like dexterous control in digital world. The code is available at https://github.com/showlab/showui-pi.