ShowUI-π: GUI 민첩한 손으로서의 흐름 기반 생성 모델
ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands
December 31, 2025
저자: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
초록
로봇 공학 및 디지털 환경에서 인간 수준의 자동화를 실현하기 위해서는 정교한 조작이 가능한 지능형 에이전트 구축이 필수적입니다. 그러나 기존 GUI 에이전트는 이산적인 클릭 예측(x,y)에 의존하여, 연속적인 실시간 인지와 조정이 필요한 자유 형식의 폐루프 궤적(예: 진행률 막대 끌기) 구현을 제한합니다. 본 연구에서는 다음과 같은 설계를 특징으로 하는 최초의 흐름 기반 생성 모델인 ShowUI-π를 GUI 정교한 핸드로 개발합니다: (i) **통합 이산-연속 액션**: 다양한 상호작용 모드에 유연하게 적응할 수 있도록 공유 모델 내에서 이산적 클릭과 연속적 끌기를 통합합니다. (ii) **끌기 모델링을 위한 흐름 기반 액션 생성**: 경량 액션 전문가를 통해 연속적인 시각 관찰로부터 증분적 커서 조정을 예측하여 부드럽고 안정적인 궤적을 보장합니다. (iii) **끌기 훈련 데이터 및 벤치마크**: PowerPoint, Adobe Premiere Pro 등 5개 도메인에서 20K개의 끌기 궤적을 수동으로 수집 및 합성하고, GUI 에이전트의 끌기 능력을 평가하기 위한 포괄적인 온라인 및 오프라인 평가 프로토콜을 갖춘 ScreenDrag 벤치마크를 소개합니다. 실험 결과, 독점 GUI 에이전트들은 ScreenDrag에서 여전히 어려움을 겪는 반면(Operator 13.27점, 최고 성능 Gemini-2.5-CUA 22.18점), ShowUI-π는 4.5억 개의 매개변수만으로 26.98점을 달성하여 과제의 난이도와 우리 접근법의 효과성을 동시에 입증했습니다. 본 연구가 디지털 세계에서 GUI 에이전트가 인간과 유사한 정교한 제어로 나아가는 데 기여하기를 바랍니다. 코드는 https://github.com/showlab/showui-pi에서 이용 가능합니다.
English
Building intelligent agents capable of dexterous manipulation is essential for achieving human-like automation in both robotics and digital environments. However, existing GUI agents rely on discrete click predictions (x,y), which prohibits free-form, closed-loop trajectories (e.g. dragging a progress bar) that require continuous, on-the-fly perception and adjustment. In this work, we develop ShowUI-π, the first flow-based generative model as GUI dexterous hand, featuring the following designs: (i) Unified Discrete-Continuous Actions, integrating discrete clicks and continuous drags within a shared model, enabling flexible adaptation across diverse interaction modes; (ii) Flow-based Action Generation for drag modeling, which predicts incremental cursor adjustments from continuous visual observations via a lightweight action expert, ensuring smooth and stable trajectories; (iii) Drag Training data and Benchmark, where we manually collect and synthesize 20K drag trajectories across five domains (e.g. PowerPoint, Adobe Premiere Pro), and introduce ScreenDrag, a benchmark with comprehensive online and offline evaluation protocols for assessing GUI agents' drag capabilities. Our experiments show that proprietary GUI agents still struggle on ScreenDrag (e.g. Operator scores 13.27, and the best Gemini-2.5-CUA reaches 22.18). In contrast, ShowUI-π achieves 26.98 with only 450M parameters, underscoring both the difficulty of the task and the effectiveness of our approach. We hope this work advances GUI agents toward human-like dexterous control in digital world. The code is available at https://github.com/showlab/showui-pi.