ClawGUI: унифицированная среда для обучения, оценки и развертывания агентов графического интерфейса
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
April 13, 2026
Авторы: Fei Tang, Zhiqiong Lu, Boxuan Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Аннотация
Агенты с графическим интерфейсом (GUI) управляют приложениями через их визуальные интерфейсы, а не программные API, взаимодействуя с произвольным программным обеспечением посредством нажатий, свайпов и нажатий клавиш, охватывая длинный хвост приложений, недоступных для агентов на основе CLI. Однако прогресс в этой области ограничен не столько вычислительной мощностью моделей, сколько отсутствием целостной полнофункциональной инфраструктуры: онлайн-обучение с подкреплением (RL) страдает от нестабильности среды и закрытых конвейеров, оценочные протоколы незаметно расходятся между работами, а обученные агенты редко доходят до реальных пользователей на реальных устройствах. Мы представляем ClawGUI — фреймворк с открытым исходным кодом, который решает эти три проблемы в единой оболочке. ClawGUI-RL предоставляет первую открытую инфраструктуру RL для GUI-агентов с проверенной поддержкой как параллельных виртуальных сред, так и реальных физических устройств, интегрируя GiGPO с Process Reward Model для плотного пошагового контроля. ClawGUI-Eval обеспечивает полностью стандартизированный конвейер оценки на 6 бенчмарках и 11+ моделях, достигая 95,8% воспроизводимости по сравнению с официальными базовыми уровнями. ClawGUI-Agent доставляет обученных агентов на Android, HarmonyOS и iOS через 12+ чат-платформ с гибридным CLI-GUI управлением и устойчивой персонализированной памятью. Обученный сквозным образом в этом конвейере, ClawGUI-2B достигает показателя успешности 17,1% на MobileWorld GUI-Only, превосходя базовый уровень MAI-UI-2B того же масштаба на 6,0%.
English
GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present ClawGUI, an open-source framework addressing these three gaps within a single harness. ClawGUI-RL provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. ClawGUI-Eval enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. ClawGUI-Agent brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, ClawGUI-2B achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.