Relatório Técnico do Step-GUI

Resumo

Os recentes avanços em modelos de linguagem grandes multimodais desbloqueiam oportunidades sem precedentes para a automação de interfaces gráficas do utilizador (GUI). No entanto, um desafio fundamental permanece: como adquirir eficientemente dados de treino de alta qualidade, mantendo a confiabilidade da anotação? Introduzimos um pipeline de treino auto-evolutivo alimentado pelo Sistema de Recompensa de Passo Calibrado, que converte trajetórias geradas pelo modelo em sinais de treino confiáveis através de calibração a nível de trajetória, alcançando uma precisão de anotação >90% com um custo 10 a 100 vezes menor. Aproveitando este pipeline, introduzimos o Step-GUI, uma família de modelos (4B/8B) que atinge um desempenho de GUI de última geração (8B: 80,2% AndroidWorld, 48,5% OSWorld, 62,6% ScreenShot-Pro) mantendo capacidades gerais robustas. À medida que as capacidades dos agentes de GUI melhoram, a implantação prática exige interfaces padronizadas em dispositivos heterogéneos, protegendo simultaneamente a privacidade do utilizador. Para esse fim, propomos o GUI-MCP, o primeiro Model Context Protocol para automação de GUI com uma arquitetura hierárquica que combina operações atómicas de baixo nível e delegação de tarefas de alto nível para modelos especialistas locais, permitindo uma execução de alta privacidade onde os dados sensíveis permanecem no dispositivo. Finalmente, para avaliar se os agentes conseguem lidar com o uso quotidiano autêntico, introduzimos o AndroidDaily, um benchmark baseado em padrões de uso real de dispositivos móveis, com 3146 ações estáticas e 235 tarefas de ponta a ponta em cenários diários de alta frequência (8B: estático 89,91%, ponta a ponta 52,50%). O nosso trabalho avança o desenvolvimento de agentes de GUI práticos e demonstra um forte potencial para implantação realista nas interações digitais quotidianas.

English

Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.

Relatório Técnico do Step-GUI

Step-GUI Technical Report

Resumo

Support