ChatPaper.aiChatPaper

Технический отчет по Step-GUI

Step-GUI Technical Report

December 17, 2025
Авторы: Haolong Yan, Jia Wang, Xin Huang, Yeqing Shen, Ziyang Meng, Zhimin Fan, Kaijun Tan, Jin Gao, Lieyu Shi, Mi Yang, Shiliang Yang, Zhirui Wang, Brian Li, Kang An, Chenyang Li, Lei Lei, Mengmeng Duan, Danxun Liang, Guodong Liu, Hang Cheng, Hao Wu, Jie Dong, Junhao Huang, Mei Chen, Renjie Yu, Shunshan Li, Xu Zhou, Yiting Dai, Yineng Deng, Yingdan Liang, Zelin Chen, Wen Sun, Chengxu Yan, Chunqin Xu, Dong Li, Fengqiong Xiao, Guanghao Fan, Guopeng Li, Guozhen Peng, Hongbing Li, Hang Li, Hongming Chen, Jingjing Xie, Jianyong Li, Jingyang Zhang, Jiaju Ren, Jiayu Yuan, Jianpeng Yin, Kai Cao, Liang Zhao, Liguo Tan, Liying Shi, Mengqiang Ren, Min Xu, Manjiao Liu, Mao Luo, Mingxin Wan, Na Wang, Nan Wu, Ning Wang, Peiyao Ma, Qingzhou Zhang, Qiao Wang, Qinlin Zeng, Qiong Gao, Qiongyao Li, Shangwu Zhong, Shuli Gao, Shaofan Liu, Shisi Gao, Shuang Luo, Xingbin Liu, Xiaojia Liu, Xiaojie Hou, Xin Liu, Xuanti Feng, Xuedan Cai, Xuan Wen, Xianwei Zhu, Xin Liang, Xin Liu, Xin Zhou, Yingxiu Zhao, Yukang Shi, Yunfang Xu, Yuqing Zeng, Yixun Zhang, Zejia Weng, Zhonghao Yan, Zhiguo Huang, Zhuoyu Wang, Zheng Ge, Jing Li, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Daxin Jiang
cs.AI

Аннотация

Последние достижения в области мультимодальных больших языковых моделей открывают беспрецедентные возможности для автоматизации графических интерфейсов. Однако фундаментальная проблема сохраняется: как эффективно получать высококачественные данные для обучения, обеспечивая надежность аннотаций? Мы представляем саморазвивающийся конвейер обучения, работающий на основе Калиброванной системы пошагового вознаграждения, которая преобразует траектории, сгенерированные моделью, в надежные обучающие сигналы посредством калибровки на уровне траекторий, достигая точности аннотаций >90% при стоимости в 10-100 раз ниже. Используя этот конвейер, мы представляем Step-GUI — семейство моделей (4B/8B), которое демонстрирует наилучшую производительность в задачах GUI (8B: 80.2% на AndroidWorld, 48.5% на OSWorld, 62.6% на ScreenShot-Pro), сохраняя при этом надежные общие способности. По мере улучшения возможностей GUI-агентов практическое развертывание требует стандартизированных интерфейсов для гетерогенных устройств при обеспечении конфиденциальности пользователей. Для этой цели мы предлагаем GUI-MCP — первый Model Context Protocol для автоматизации GUI с иерархической архитектурой, сочетающей низкоуровневые атомарные операции и высокоуровневую делегацию задач локальным специализированным моделям, что позволяет осуществлять выполнение с высоким уровнем конфиденциальности, когда чувствительные данные остаются на устройстве. Наконец, чтобы оценить, способны ли агенты справляться с реальными повседневными задачами, мы представляем AndroidDaily — эталонный тест, основанный на реальных паттернах использования мобильных устройств, включающий 3146 статических действий и 235 сквозных задач в высокочастотных ежедневных сценариях (8B: статические 89.91%, сквозные 52.50%). Наша работа способствует развитию практических GUI-агентов и демонстрирует значительный потенциал для реального развертывания в повседневном цифровом взаимодействии.
English
Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.
PDF1132December 19, 2025