ClawGUI: Um Framework Unificado para Treinamento, Avaliação e Implantação de Agentes de Interface Gráfica
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
April 13, 2026
Autores: Fei Tang, Zhiqiong Lu, Boxuan Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Resumo
Os agentes de GUI operam aplicativos por meio de suas interfaces visuais, em vez de APIs programáticas, interagindo com softwares arbitrários através de toques, deslizes e pressionamentos de tecla, alcançando uma longa cauda de aplicativos inacessíveis a agentes baseados em CLI. No entanto, o progresso nesta área é mais limitado pela ausência de uma infraestrutura coerente de pilha completa do que pela capacidade de modelagem: o treinamento online de RL sofre com instabilidade do ambiente e pipelines fechados, protocolos de avaliação divergem silenciosamente entre estudos, e agentes treinados raramente alcançam usuários reais em dispositivos reais. Apresentamos ClawGUI, um framework de código aberto que aborda essas três lacunas em um único conjunto. ClawGUI-RL fornece a primeira infraestrutura de RL para agentes de GUI com suporte validado para ambientes virtuais paralelos e dispositivos físicos reais, integrando GiGPO com um Process Reward Model para supervisão densa em nível de etapa. ClawGUI-Eval impõe um pipeline de avaliação totalmente padronizado em 6 benchmarks e 11+ modelos, alcançando 95,8% de reprodução contra baselines oficiais. ClawGUI-Agent leva agentes treinados para Android, HarmonyOS e iOS através de 12+ plataformas de chat com controle híbrido CLI-GUI e memória personalizada persistente. Treinado de ponta a ponta neste pipeline, ClawGUI-2B alcança 17,1% de Taxa de Sucesso no MobileWorld GUI-Only, superando a baseline MAI-UI-2B de mesma escala em 6,0%.
English
GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present ClawGUI, an open-source framework addressing these three gaps within a single harness. ClawGUI-RL provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. ClawGUI-Eval enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. ClawGUI-Agent brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, ClawGUI-2B achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.