Video2GUI : Synthèse de trajectoires d'interaction à grande échelle pour le pré-entraînement d'agents GUI généralisés

Résumé

Les récentes avancées dans les modèles de langage multimodaux de grande taille ont suscité un intérêt croissant pour les agents d'interface utilisateur graphique (GUI), mais leur généralisation reste limitée par la rareté des données d'entraînement à grande échelle couvrant un large éventail d'applications réelles. Les ensembles de données existants reposent largement sur des annotations manuelles coûteuses et sont généralement confinés à des domaines restreints. Pour relever ce défi, nous proposons Video2GUI, un cadre entièrement automatisé qui extrait des trajectoires d'interaction GUI ancrées directement à partir de vidéos Internet non annotées. Video2GUI utilise une stratégie de filtrage grossier à fin pour identifier les vidéos tutoriels GUI de haute qualité et les convertir en trajectoires d'agents structurées. En appliquant ce pipeline à 500 millions d'entrées de métadonnées vidéo, nous construisons WildGUI, un ensemble de données à grande échelle contenant 12 millions de trajectoires d'interaction couvrant plus de 1 500 applications et sites web. Le pré-entraînement de Qwen2.5-VL et Mimo-VL sur WildGUI produit des améliorations constantes de 5 à 20 % sur plusieurs benchmarks d'ancrage et d'action GUI, atteignant ou surpassant les performances de pointe. Nous publierons à la fois l'ensemble de données WildGUI et le pipeline Video2GUI pour soutenir les futures recherches sur les agents GUI.

English

Recent advances in multimodal large language models have driven growing interest in graphical user interface (GUI) agents, yet their generalization remains constrained by the scarcity of large-scale training data spanning diverse real-world applications. Existing datasets rely heavily on costly manual annotations and are typically confined to narrow domains. To address this challenge, we propose Video2GUI, a fully automated framework that extracts grounded GUI interaction trajectories directly from unlabeled Internet videos. Video2GUI employs a coarse-to-fine filtering strategy to identify high-quality GUI tutorial videos and convert them into structured agent trajectories. Applying this pipeline to 500 million video metadata entries, we construct WildGUI, a large-scale dataset containing 12 million interaction trajectories spanning over 1,500 applications and websites. Pre-training Qwen2.5-VL and Mimo-VL on WildGUI yields consistent improvements of 5-20% across multiple GUI grounding and action benchmarks, matching or surpassing state-of-the-art performance. We will release both the WildGUI dataset and the Video2GUI pipeline to support future research of GUI agents.