Технический отчет по Step-GUI

Аннотация

Последние достижения в области мультимодальных больших языковых моделей открывают беспрецедентные возможности для автоматизации графических интерфейсов. Однако фундаментальная проблема сохраняется: как эффективно получать высококачественные данные для обучения, обеспечивая надежность аннотаций? Мы представляем саморазвивающийся конвейер обучения, работающий на основе Калиброванной системы пошагового вознаграждения, которая преобразует траектории, сгенерированные моделью, в надежные обучающие сигналы посредством калибровки на уровне траекторий, достигая точности аннотаций >90% при стоимости в 10-100 раз ниже. Используя этот конвейер, мы представляем Step-GUI — семейство моделей (4B/8B), которое демонстрирует наилучшую производительность в задачах GUI (8B: 80.2% на AndroidWorld, 48.5% на OSWorld, 62.6% на ScreenShot-Pro), сохраняя при этом надежные общие способности. По мере улучшения возможностей GUI-агентов практическое развертывание требует стандартизированных интерфейсов для гетерогенных устройств при обеспечении конфиденциальности пользователей. Для этой цели мы предлагаем GUI-MCP — первый Model Context Protocol для автоматизации GUI с иерархической архитектурой, сочетающей низкоуровневые атомарные операции и высокоуровневую делегацию задач локальным специализированным моделям, что позволяет осуществлять выполнение с высоким уровнем конфиденциальности, когда чувствительные данные остаются на устройстве. Наконец, чтобы оценить, способны ли агенты справляться с реальными повседневными задачами, мы представляем AndroidDaily — эталонный тест, основанный на реальных паттернах использования мобильных устройств, включающий 3146 статических действий и 235 сквозных задач в высокочастотных ежедневных сценариях (8B: статические 89.91%, сквозные 52.50%). Наша работа способствует развитию практических GUI-агентов и демонстрирует значительный потенциал для реального развертывания в повседневном цифровом взаимодействии.

English

Recent advances in multimodal large language models unlock unprecedented opportunities for GUI automation. However, a fundamental challenge remains: how to efficiently acquire high-quality training data while maintaining annotation reliability? We introduce a self-evolving training pipeline powered by the Calibrated Step Reward System, which converts model-generated trajectories into reliable training signals through trajectory-level calibration, achieving >90% annotation accuracy with 10-100x lower cost. Leveraging this pipeline, we introduce Step-GUI, a family of models (4B/8B) that achieves state-of-the-art GUI performance (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) while maintaining robust general capabilities. As GUI agent capabilities improve, practical deployment demands standardized interfaces across heterogeneous devices while protecting user privacy. To this end, we propose GUI-MCP, the first Model Context Protocol for GUI automation with hierarchical architecture that combines low-level atomic operations and high-level task delegation to local specialist models, enabling high-privacy execution where sensitive data stays on-device. Finally, to assess whether agents can handle authentic everyday usage, we introduce AndroidDaily, a benchmark grounded in real-world mobile usage patterns with 3146 static actions and 235 end-to-end tasks across high-frequency daily scenarios (8B: static 89.91%, end-to-end 52.50%). Our work advances the development of practical GUI agents and demonstrates strong potential for real-world deployment in everyday digital interactions.

Технический отчет по Step-GUI

Step-GUI Technical Report

Аннотация

Support