스텝-GUI 기술 보고서
Step-GUI Technical Report
December 17, 2025
저자: Haolong Yan, Jia Wang, Xin Huang, Yeqing Shen, Ziyang Meng, Zhimin Fan, Kaijun Tan, Jin Gao, Lieyu Shi, Mi Yang, Shiliang Yang, Zhirui Wang, Brian Li, Kang An, Chenyang Li, Lei Lei, Mengmeng Duan, Danxun Liang, Guodong Liu, Hang Cheng, Hao Wu, Jie Dong, Junhao Huang, Mei Chen, Renjie Yu, Shunshan Li, Xu Zhou, Yiting Dai, Yineng Deng, Yingdan Liang, Zelin Chen, Wen Sun, Chengxu Yan, Chunqin Xu, Dong Li, Fengqiong Xiao, Guanghao Fan, Guopeng Li, Guozhen Peng, Hongbing Li, Hang Li, Hongming Chen, Jingjing Xie, Jianyong Li, Jingyang Zhang, Jiaju Ren, Jiayu Yuan, Jianpeng Yin, Kai Cao, Liang Zhao, Liguo Tan, Liying Shi, Mengqiang Ren, Min Xu, Manjiao Liu, Mao Luo, Mingxin Wan, Na Wang, Nan Wu, Ning Wang, Peiyao Ma, Qingzhou Zhang, Qiao Wang, Qinlin Zeng, Qiong Gao, Qiongyao Li, Shangwu Zhong, Shuli Gao, Shaofan Liu, Shisi Gao, Shuang Luo, Xingbin Liu, Xiaojia Liu, Xiaojie Hou, Xin Liu, Xuanti Feng, Xuedan Cai, Xuan Wen, Xianwei Zhu, Xin Liang, Xin Liu, Xin Zhou, Yingxiu Zhao, Yukang Shi, Yunfang Xu, Yuqing Zeng, Yixun Zhang, Zejia Weng, Zhonghao Yan, Zhiguo Huang, Zhuoyu Wang, Zheng Ge, Jing Li, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Daxin Jiang
cs.AI
초록
최근 멀티모달 대규모 언어 모델의 발전으로 GUI 자동화에 있어 전례 없는 기회가 열렸습니다. 그러나 근본적인 과제는 여전히 남아 있습니다: 주석 신뢰성을 유지하면서 고품질 훈련 데이터를 효율적으로 확보하는 방법은 무엇일까요? 우리는 교정된 단계 보상 시스템으로 구동되는 자가 진화 훈련 파이프라인을 소개합니다. 이 파이프라인은 모델 생성 궤적을 궤적 수준 교정을 통해 신뢰할 수 있는 훈련 신호로 변환하여 10-100배 낮은 비용으로 90% 이상의 주석 정확도를 달성합니다. 이 파이프라인을 활용하여 우리는 최첨단 GUI 성능(8B: AndroidWorld 80.2%, OSWorld 48.5%, ScreenShot-Pro 62.6%)을 달성하면서도 강력한 일반 능력을 유지하는 Step-GUI 모델 패밀리(4B/8B)를 선보입니다.
GUI 에이전트 능력이 향상됨에 따라 실질적인 배포에는 사용자 프라이버시를 보호하면서 이기종 디바이스 간 표준화된 인터페이스가 요구됩니다. 이를 위해 우리는 GUI 자동화를 위한 최초의 모델 컨텍스트 프로토콜인 GUI-MCP를 제안합니다. 이는 저수준 원자 연산과 고수준 작업을 현지 전문 모델에 위임하는 계층적 아키텍처를 결합하여 민감한 데이터가 기기 내에 유지되는 높은 수준의 프라이버시 실행을 가능하게 합니다.
마지막으로, 에이전트가 실제 일상 사용을 처리할 수 있는지 평가하기 위해 우리는 실제 모바일 사용 패턴에 기반한 벤치마크인 AndroidDaily를 소개합니다. 이 벤치마크는 고빈도 일상 시나리오에서 3146개의 정적 액션과 235개의 종단간 작업으로 구성됩니다(8B: 정적 89.91%, 종단간 52.50%). 우리의 연구는 실용적인 GUI 에이전트 개발을 진전시키고 일상적인 디지털 상호작용에서 실세계 배포의 강력한 잠재력을 입증합니다.
English
Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.