ClawGUI: Un Marco Unificado para el Entrenamiento, Evaluación e Implementación de Agentes de Interfaz Gráfica de Usuario
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
April 13, 2026
Autores: Fei Tang, Zhiqiong Lu, Boxuan Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Resumen
Los agentes de interfaz gráfica (GUI) operan aplicaciones a través de sus interfaces visuales en lugar de APIs programáticas, interactuando con software arbitrario mediante pulsaciones, deslizamientos y pulsaciones de teclas, alcanzando una larga cola de aplicaciones inaccesible para agentes basados en línea de comandos. Sin embargo, el progreso en esta área se ve limitado menos por la capacidad de modelado que por la ausencia de una infraestructura coherente de pila completa: el entrenamiento online por refuerzo (RL) sufre de inestabilidad ambiental y pipelines cerrados, los protocolos de evaluación divergen silenciosamente entre trabajos, y los agentes entrenados rara vez llegan a usuarios reales en dispositivos reales. Presentamos ClawGUI, un framework de código abierto que aborda estas tres brechas dentro de un mismo sistema. ClawGUI-RL proporciona la primera infraestructura RL de agentes GUI de código abierto con soporte validado para entornos virtuales paralelos y dispositivos físicos reales, integrando GiGPO con un Modelo de Recompensa de Procesos para supervisión densa a nivel de paso. ClawGUI-Eval impone una pipeline de evaluación completamente estandarizada en 6 benchmarks y 11+ modelos, logrando un 95.8% de reproducibilidad frente a líneas base oficiales. ClawGUI-Agent lleva agentes entrenados a Android, HarmonyOS e iOS mediante 12+ plataformas de chat con control híbrido CLI-GUI y memoria personalizada persistente. Entrenado de extremo a extremo en esta pipeline, ClawGUI-2B alcanza una Tasa de Éxito del 17.1% en MobileWorld GUI-Only, superando en un 6.0% a la línea base MAI-UI-2B de misma escala.
English
GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present ClawGUI, an open-source framework addressing these three gaps within a single harness. ClawGUI-RL provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. ClawGUI-Eval enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. ClawGUI-Agent brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, ClawGUI-2B achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.