Rapport Technique de Step-GUI

papers.abstract

Les récentes avancées des modèles de langage multimodaux ouvrent des perspectives inédites pour l'automatisation des interfaces graphiques. Cependant, un défi fondamental persiste : comment acquérir efficacement des données d'entraînement de haute qualité tout en garantissant la fiabilité des annotations ? Nous présentons un pipeline d'entraînement auto-évolutif propulsé par le Système de Récompense Étalonné par Étapes, qui transforme les trajectoires générées par le modèle en signaux d'entraînement fiables grâce à un étalonnage au niveau trajectoire, atteignant une précision d'annotation >90 % pour un coût 10 à 100 fois inférieur. En capitalisant sur ce pipeline, nous présentons Step-GUI, une famille de modèles (4B/8B) qui obtient des performances de pointe sur les interfaces graphiques (8B : 80,2 % AndroidWorld, 48,5 % OSWorld, 62,6 % ScreenShot-Pro) tout en conservant des capacités générales robustes. Alors que les capacités des agents d'interface graphique s'améliorent, leur déploiement pratique exige des interfaces standardisées sur des appareils hétérogènes tout en protégeant la vie privée des utilisateurs. À cette fin, nous proposons GUI-MCP, le premier Protocole de Contexte de Modèle dédié à l'automatisation des interfaces graphiques, doté d'une architecture hiérarchique combinant des opérations atomiques de bas niveau et une délégation de tâches de haut niveau à des modèles spécialisés locaux, permettant une exécution à haute confidentialité où les données sensibles restent sur l'appareil. Enfin, pour évaluer si les agents peuvent gérer des usages quotidiens authentiques, nous introduisons AndroidDaily, un benchmark ancré dans des schémas d'utilisation mobiles réels comprenant 3146 actions statiques et 235 tâches de bout en bout couvrant des scénarios quotidiens à haute fréquence (8B : statique 89,91 %, bout en bout 52,50 %). Notre travail fait progresser le développement d'agents d'interface graphique pratiques et démontre un fort potentiel de déploiement réel dans les interactions numériques quotidiennes.

English

Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.

Rapport Technique de Step-GUI

Step-GUI Technical Report

papers.abstract

Support