ClawGUI : Un cadre unifié pour l'entraînement, l'évaluation et le déploiement d'agents d'interface graphique
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
April 13, 2026
Auteurs: Fei Tang, Zhiqiong Lu, Boxuan Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Résumé
Les agents d'interface graphique pilotent les applications via leurs interfaces visuelles plutôt que par des API programmatiques, interagissant avec des logiciels arbitraires par des taps, des gestes de balayage et des frappes au clavier, atteignant une longue traîne d'applications inaccessibles aux agents basés sur CLI. Pourtant, les progrès dans ce domaine sont davantage entravés par l'absence d'une infrastructure cohérente full-stack que par les capacités de modélisation : l'apprentissage par renforcement en ligne souffre d'instabilité environnementale et de pipelines fermés, les protocoles d'évaluation divergent silencieusement entre les travaux, et les agents entraînés atteignent rarement les utilisateurs réels sur des appareils réels. Nous présentons ClawGUI, un framework open-source qui résout ces trois lacunes au sein d'une même structure. ClawGUI-RL fournit la première infrastructure open-source d'apprentissage par renforcement pour agents GUI avec une prise en charge validée des environnements virtuels parallèles et des appareils physiques réels, intégrant GiGPO avec un Process Reward Model pour une supervision dense au niveau de l'étape. ClawGUI-Eval impose un pipeline d'évaluation entièrement standardisé sur 6 benchmarks et 11+ modèles, atteignant 95,8 % de reproductibilité par rapport aux bases de référence officielles. ClawGUI-Agent déploie les agents entraînés sur Android, HarmonyOS et iOS via 12+ plateformes de chat avec un contrôle hybride CLI-GUI et une mémoire persistante personnalisée. Entraîné de bout en bout dans ce pipeline, ClawGUI-2B atteint un taux de réussite de 17,1 % sur MobileWorld GUI-Only, surpassant de 6,0 % la base de référence MAI-UI-2B de même échelle.
English
GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present ClawGUI, an open-source framework addressing these three gaps within a single harness. ClawGUI-RL provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. ClawGUI-Eval enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. ClawGUI-Agent brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, ClawGUI-2B achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.