Video2GUI: синтез крупномасштабных траекторий взаимодействия для предобучения обобщенного GUI-агента

Аннотация

Недавние достижения в области мультимодальных больших языковых моделей стимулировали растущий интерес к агентам графических пользовательских интерфейсов (GUI), однако их обобщение по-прежнему ограничено нехваткой крупномасштабных обучающих данных, охватывающих разнообразные реальные приложения. Существующие наборы данных в значительной степени полагаются на дорогостоящую ручную разметку и, как правило, ограничены узкими областями. Для решения этой проблемы мы предлагаем Video2GUI — полностью автоматизированную среду, которая извлекает обоснованные траектории взаимодействия с GUI непосредственно из немаркированных интернет-видео. Video2GUI использует стратегию фильтрации от грубого к точному для выявления высококачественных обучающих видео по GUI и преобразования их в структурированные траектории агентов. Применяя этот конвейер к 500 миллионам записей метаданных видео, мы создаем WildGUI — крупномасштабный набор данных, содержащий 12 миллионов траекторий взаимодействия, охватывающих более 1500 приложений и веб-сайтов. Предварительное обучение Qwen2.5-VL и Mimo-VL на WildGUI обеспечивает стабильное улучшение на 5–20% по нескольким эталонным тестам привязки к GUI и действий, достигая или превосходя современные показатели. Мы предоставим в открытый доступ как набор данных WildGUI, так и конвейер Video2GUI для поддержки будущих исследований агентов GUI.

English

Recent advances in multimodal large language models have driven growing interest in graphical user interface (GUI) agents, yet their generalization remains constrained by the scarcity of large-scale training data spanning diverse real-world applications. Existing datasets rely heavily on costly manual annotations and are typically confined to narrow domains. To address this challenge, we propose Video2GUI, a fully automated framework that extracts grounded GUI interaction trajectories directly from unlabeled Internet videos. Video2GUI employs a coarse-to-fine filtering strategy to identify high-quality GUI tutorial videos and convert them into structured agent trajectories. Applying this pipeline to 500 million video metadata entries, we construct WildGUI, a large-scale dataset containing 12 million interaction trajectories spanning over 1,500 applications and websites. Pre-training Qwen2.5-VL and Mimo-VL on WildGUI yields consistent improvements of 5-20% across multiple GUI grounding and action benchmarks, matching or surpassing state-of-the-art performance. We will release both the WildGUI dataset and the Video2GUI pipeline to support future research of GUI agents.