ChatPaper.aiChatPaper

ShowUI-π: Modelos Generativos de Flujo como Manos Diestras de Interfaz Gráfica

ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands

December 31, 2025
Autores: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI

Resumen

La construcción de agentes inteligentes capaces de manipulación diestra es esencial para lograr una automatización similar a la humana tanto en robótica como en entornos digitales. Sin embargo, los agentes de interfaz gráfica de usuario (GUI) existentes se basan en predicciones discretas de clics (x,y), lo que prohíbe las trayectorias de bucle cerrado de forma libre (por ejemplo, arrastrar una barra de progreso) que requieren una percepción y ajuste continuos sobre la marcha. En este trabajo, desarrollamos ShowUI-π, el primer modelo generativo basado en flujos que actúa como una mano diestra para GUI, con las siguientes características: (i) Acciones Unificadas Discretas-Continuas, que integran clics discretos y arrastres continuos dentro de un modelo compartido, permitiendo una adaptación flexible a través de diversos modos de interacción; (ii) Generación de Acciones Basada en Flujos para el modelado de arrastres, que predice ajustes incrementales del cursor a partir de observaciones visuales continuas mediante un experto en acciones ligero, garantizando trayectorias suaves y estables; (iii) Datos de Entrenamiento para Arrastres y Benchmark, donde recopilamos y sintetizamos manualmente 20.000 trayectorias de arrastre en cinco dominios (por ejemplo, PowerPoint, Adobe Premiere Pro), e introducimos ScreenDrag, un benchmark con protocolos de evaluación en línea y fuera de línea exhaustivos para evaluar las capacidades de arrastre de los agentes GUI. Nuestros experimentos muestran que los agentes GUI propietarios aún tienen dificultades en ScreenDrag (por ejemplo, Operator obtiene 13.27, y el mejor Gemini-2.5-CUA alcanza 22.18). En contraste, ShowUI-π logra 26.98 con solo 450M de parámetros, subrayando tanto la dificultad de la tarea como la efectividad de nuestro enfoque. Esperamos que este trabajo impulse a los agentes GUI hacia un control diestro similar al humano en el mundo digital. El código está disponible en https://github.com/showlab/showui-pi.
English
Building intelligent agents capable of dexterous manipulation is essential for achieving human-like automation in both robotics and digital environments. However, existing GUI agents rely on discrete click predictions (x,y), which prohibits free-form, closed-loop trajectories (e.g. dragging a progress bar) that require continuous, on-the-fly perception and adjustment. In this work, we develop ShowUI-π, the first flow-based generative model as GUI dexterous hand, featuring the following designs: (i) Unified Discrete-Continuous Actions, integrating discrete clicks and continuous drags within a shared model, enabling flexible adaptation across diverse interaction modes; (ii) Flow-based Action Generation for drag modeling, which predicts incremental cursor adjustments from continuous visual observations via a lightweight action expert, ensuring smooth and stable trajectories; (iii) Drag Training data and Benchmark, where we manually collect and synthesize 20K drag trajectories across five domains (e.g. PowerPoint, Adobe Premiere Pro), and introduce ScreenDrag, a benchmark with comprehensive online and offline evaluation protocols for assessing GUI agents' drag capabilities. Our experiments show that proprietary GUI agents still struggle on ScreenDrag (e.g. Operator scores 13.27, and the best Gemini-2.5-CUA reaches 22.18). In contrast, ShowUI-π achieves 26.98 with only 450M parameters, underscoring both the difficulty of the task and the effectiveness of our approach. We hope this work advances GUI agents toward human-like dexterous control in digital world. The code is available at https://github.com/showlab/showui-pi.
PDF341January 15, 2026