ClawGUI: 훈련, 평가 및 배포를 위한 통합 GUI 에이전트 프레임워크
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
April 13, 2026
저자: Fei Tang, Zhiqiong Lu, Boxuan Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
초록
GUI 에이전트는 프로그램 API 방식이 아닌 시각적 인터페이스를 통해 애플리케이션을 구동하며, 탭, 스와이프, 키 입력 등을 통해 임의의 소프트웨어와 상호작용함으로써 CLI 기반 에이전트가 접근할 수 없는 롱테일 애플리케이션 영역에 도달합니다. 그러나 이 분야의 발전은 모델 능력의 한계보다는 일관된 풀스택 인프라의 부재에 의해 더욱 제한받고 있습니다. 온라인 강화학습 훈련은 환경 불안정성과 폐쇄적 파이프라인으로 인해 어려움을 겪고, 평가 방법론은 연구들 간에 조용히 달라지며, 훈련된 에이전트는 실제 기기에서 실 사용자에게 거도 제공되지 않는 실정입니다. 본 논문은 이 세 가지 격차를 단일 체계 내에서 해결하는 오픈소스 프레임워크인 ClawGUI를 소개합니다. ClawGUI-RL은 병렬 가상 환경과 실제 물리 기기 모두에 대해 검증된 지원을 제공하는 최초의 오픈소스 GUI 에이전트 강화학습 인프라로, GiGPO와 조밀한 단계별 지도를 위한 Process Reward Model을 통합합니다. ClawGUI-Eval은 6개 벤치마크와 11개 이상의 모델에 걸쳐 완전히 표준화된 평가 파이프라인을 적용하여 공식 기준 모델 대비 95.8%의 재현율을 달성합니다. ClawGUI-Agent는 하이브리드 CLI-GUI 제어와 지속적 개인화 메모리를 갖춘 12개 이상의 채팅 플랫폼을 통해 훈련된 에이전트를 Android, HarmonyOS, iOS에 제공합니다. 이 파이프라인 내에서 종단간 훈련된 ClawGUI-2B는 MobileWorld GUI-Only에서 17.1%의 성공률을 기록하며, 동일 규모의 MAI-UI-2B 기준 모델을 6.0% 앞섭니다.
English
GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present ClawGUI, an open-source framework addressing these three gaps within a single harness. ClawGUI-RL provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. ClawGUI-Eval enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. ClawGUI-Agent brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, ClawGUI-2B achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.