ClawGUI: Ein einheitliches Framework für das Training, die Evaluierung und das Deployment von GUI-Agenten
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
April 13, 2026
Autoren: Fei Tang, Zhiqiong Lu, Boxuan Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Zusammenfassung
GUI-Agenten steuern Anwendungen über ihre visuellen Oberflächen anstelle von programmatischen APIs und interagieren mit beliebiger Software über Tippen, Wischen und Tastatureingaben, wodurch sie eine lange Reihe von Anwendungen erreichen, die für CLI-basierte Agenten unzugänglich sind. Dennoch wird der Fortschritt auf diesem Gebiet weniger durch die Modellkapazität gebremst als durch das Fehlen einer kohärenten Full-Stack-Infrastruktur: Online-RL-Training leidet unter Instabilität der Umgebung und geschlossenen Pipelines, Evaluierungsprotokolle unterscheiden sich stillschweigend zwischen verschiedenen Arbeiten, und trainierte Agenten erreichen selten echte Nutzer auf echten Geräten. Wir stellen ClawGUI vor, ein Open-Source-Framework, das diese drei Lücken in einem einzigen System schließt. ClawGUI-RL bietet die erste Open-Source-RL-Infrastruktur für GUI-Agenten mit validierter Unterstützung für parallele virtuelle Umgebungen und reale physische Geräte, integriert GiGPO mit einem Process Reward Model für eine dichte, schrittweise Überwachung. ClawGUI-Eval erzwingt eine vollständig standardisierte Evaluierungspipeline über 6 Benchmarks und 11+ Modelle hinweg und erreicht eine 95,8%ige Reproduzierbarkeit gegenüber offiziellen Baselines. ClawGUI-Agent bringt trainierte Agenten auf Android, HarmonyOS und iOS über 12+ Chat-Plattformen mit hybriden CLI-GUI-Steuerung und persistentem, personalisiertem Gedächtnis. End-to-end in dieser Pipeline trainiert, erreicht ClawGUI-2B eine Erfolgsrate von 17,1% auf MobileWorld GUI-Only und übertrifft damit die gleichgroße MAI-UI-2B-Baseline um 6,0%.
English
GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present ClawGUI, an open-source framework addressing these three gaps within a single harness. ClawGUI-RL provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. ClawGUI-Eval enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. ClawGUI-Agent brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, ClawGUI-2B achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.