ステップGUI技術報告書
Step-GUI Technical Report
December 17, 2025
著者: Haolong Yan, Jia Wang, Xin Huang, Yeqing Shen, Ziyang Meng, Zhimin Fan, Kaijun Tan, Jin Gao, Lieyu Shi, Mi Yang, Shiliang Yang, Zhirui Wang, Brian Li, Kang An, Chenyang Li, Lei Lei, Mengmeng Duan, Danxun Liang, Guodong Liu, Hang Cheng, Hao Wu, Jie Dong, Junhao Huang, Mei Chen, Renjie Yu, Shunshan Li, Xu Zhou, Yiting Dai, Yineng Deng, Yingdan Liang, Zelin Chen, Wen Sun, Chengxu Yan, Chunqin Xu, Dong Li, Fengqiong Xiao, Guanghao Fan, Guopeng Li, Guozhen Peng, Hongbing Li, Hang Li, Hongming Chen, Jingjing Xie, Jianyong Li, Jingyang Zhang, Jiaju Ren, Jiayu Yuan, Jianpeng Yin, Kai Cao, Liang Zhao, Liguo Tan, Liying Shi, Mengqiang Ren, Min Xu, Manjiao Liu, Mao Luo, Mingxin Wan, Na Wang, Nan Wu, Ning Wang, Peiyao Ma, Qingzhou Zhang, Qiao Wang, Qinlin Zeng, Qiong Gao, Qiongyao Li, Shangwu Zhong, Shuli Gao, Shaofan Liu, Shisi Gao, Shuang Luo, Xingbin Liu, Xiaojia Liu, Xiaojie Hou, Xin Liu, Xuanti Feng, Xuedan Cai, Xuan Wen, Xianwei Zhu, Xin Liang, Xin Liu, Xin Zhou, Yingxiu Zhao, Yukang Shi, Yunfang Xu, Yuqing Zeng, Yixun Zhang, Zejia Weng, Zhonghao Yan, Zhiguo Huang, Zhuoyu Wang, Zheng Ge, Jing Li, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Daxin Jiang
cs.AI
要旨
マルチモーダル大規模言語モデルの最近の進歩は、GUI自動化に前例のない可能性をもたらしています。しかし、根本的な課題が残っています:注信の信頼性を維持しながら、いかに効率的に高品質な訓練データを取得するか?我々は、較正済みステップ報酬システムによって駆動される自己進化型訓練パイプラインを提案します。これは、モデル生成の軌跡を軌跡レベルの較正を通じて信頼性の高い訓練信号に変換し、10~100倍低コストで90%超の注信精度を達成します。このパイプラインを活用し、我々はStep-GUIを開発しました。これは、堅牢な汎用能力を維持しながら、最先端のGUI性能(8B: AndroidWorld 80.2%、OSWorld 48.5%、ScreenShot-Pro 62.6%)を達成するモデルファミリー(4B/8B)です。
GUIエージェントの能力が向上するにつれ、実用的な展開には、ユーザーのプライバシーを保護しながら異種デバイス間で標準化されたインターフェースが求められます。この目的のために、我々はGUI-MCPを提案します。これは、GUI自動化のための初のモデルコンテキストプロトコルであり、低レベル原子操作と高レベルタスク委譲をローカル専門モデルに結合する階層型アーキテクチャを備え、機密データがオンデバイスに留まる高プライバシー実行を可能にします。
最後に、エージェントが実際の日常使用を処理できるかどうかを評価するため、我々はAndroidDailyを導入します。これは実世界のモバイル使用パターンに基づくベンチマークで、高頻度日常シナリオにおける3146の静的アクションと235のエンドツーエンドタスクを含みます(8B: 静的89.91%、エンドツーエンド52.50%)。我々の研究は、実用的なGUIエージェントの開発を推進し、日常的なデジタル相互作用における実世界展開の強力な可能性を示しています。
English
Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.