ClawGUI: Een Uniform Raamwerk voor het Trainen, Evalueren en Inzetten van GUI-agenten

Samenvatting

GUI-agents besturen applicaties via hun visuele interfaces in plaats van programmatische API's. Ze interageren met willekeurige software via tikken, veegbewegingen en toetsaanslagen, waardoor ze een lange staart van applicaties bereiken die op CLI gebaseerde agents niet kunnen benaderen. Toch wordt de vooruitgang op dit gebied minder beperkt door modelcapaciteit dan door de afwezigheid van een coherente full-stack-infrastructuur: online RL-training lijdt onder omgevingsinstabiliteit en gesloten pijplijnen, evaluatieprotocollen verschuiven stilletjes tussen onderzoeken, en getrainde agents bereiken zelden echte gebruikers op echte apparaten. Wij presenteren ClawGUI, een open-source-framework dat deze drie lachen aanpakt binnen een enkele structuur. ClawGUI-RL biedt de eerste open-source RL-infrastructuur voor GUI-agents met gevalideerde ondersteuning voor zowel parallelle virtuele omgevingen als echte fysieke apparaten, en integreert GiGPO met een Process Reward Model voor dense stap-voor-stap-supervisie. ClawGUI-Eval handhaaft een volledig gestandaardiseerd evaluatiepijplijn over 6 benchmarks en 11+ modellen heen, met een reproductiegraad van 95,8% ten opzichte van officiële baselines. ClawGUI-Agent brengt getrainde agents naar Android, HarmonyOS en iOS via 12+ chatplatforms met hybride CLI-GUI-besturing en persistent gepersonaliseerd geheugen. End-to-end getraind binnen deze pijplijn behaalt ClawGUI-2B een slagingspercentage van 17,1% op MobileWorld GUI-Only, wat 6,0% beter is dan de MAI-UI-2B-baseline op dezelfde schaal.

English

GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present ClawGUI, an open-source framework addressing these three gaps within a single harness. ClawGUI-RL provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. ClawGUI-Eval enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. ClawGUI-Agent brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, ClawGUI-2B achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.

ClawGUI: Een Uniform Raamwerk voor het Trainen, Evalueren en Inzetten van GUI-agenten

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

Samenvatting

Support