Step-GUI-Technischer Bericht

papers.abstract

Jüngste Fortschritte bei multimodalen großen Sprachmodellen eröffnen beispiellose Möglichkeiten für die GUI-Automatisierung. Eine grundlegende Herausforderung bleibt jedoch bestehen: Wie können hochwertige Trainingsdaten effizient erfasst werden, während die Zuverlässigkeit der Annotation gewährleistet bleibt? Wir stellen eine sich selbst weiterentwickelnde Trainingspipeline vor, die durch ein kalibriertes Stufenbelohnungssystem angetrieben wird. Dieses System wandelt modellgenerierte Trajektorien durch trajektorienbasierte Kalibrierung in zuverlässige Trainingssignale um und erreicht eine Annotationsgenauigkeit von über 90 % bei 10- bis 100-fach geringeren Kosten. Aufbauend auf dieser Pipeline präsentieren wir Step-GUI, eine Modellfamilie (4B/8B), die state-of-the-art GUI-Leistung erzielt (8B: 80,2 % AndroidWorld, 48,5 % OSWorld, 62,6 % ScreenShot-Pro) und dabei robuste allgemeine Fähigkeiten beibehält. Da die Fähigkeiten von GUI-Agenten zunehmen, erfordert der praktische Einsatz standardisierte Schnittstellen über heterogene Geräte hinweg bei gleichzeitigem Schutz der Benutzerprivatsphäre. Zu diesem Zweck schlagen wir GUI-MCP vor, das erste Model Context Protocol für die GUI-Automatisierung mit einer hierarchischen Architektur, die Low-Level-Atomoperationen und High-Level-Aufgabendelegierung an lokale Spezialmodelle kombiniert. Dies ermöglicht eine hochgradig private Ausführung, bei der sensible Daten auf dem Gerät verbleiben. Schließlich führen wir AndroidDaily ein, um zu bewerten, ob Agenten authentische alltägliche Nutzungsszenarien bewältigen können. Dieser Benchmark basiert auf realen mobilen Nutzungsmustern und umfasst 3146 statische Aktionen und 235 End-to-End-Aufgaben in hochfrequenten Alltagsszenarien (8B: statisch 89,91 %, End-to-End 52,50 %). Unsere Arbeit fördert die Entwicklung praktischer GUI-Agenten und demonstriert ein großes Potenzial für den realen Einsatz in alltäglichen digitalen Interaktionen.

English

Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.

Step-GUI-Technischer Bericht

Step-GUI Technical Report

papers.abstract

Support