Video2GUI: Het synthetiseren van grootschalige interactietrajecten voor de pretraining van een gegeneraliseerde GUI-agent

Samenvatting

Recente vooruitgang in multimodale grote taalmodellen heeft geleid tot een groeiende belangstelling voor grafische gebruikersinterface (GUI)-agenten, maar hun generalisatie blijft beperkt door het gebrek aan grootschalige trainingsgegevens die een breed scala aan reële toepassingen bestrijken. Bestaande datasets zijn sterk afhankelijk van kostbare handmatige annotaties en blijven doorgaans beperkt tot nauwe domeinen. Om deze uitdaging aan te pakken, introduceren we Video2GUI, een volledig geautomatiseerd raamwerk dat direct uit ongelabelde internetvideo's verankerde GUI-interactietrajecten extraheert. Video2GUI gebruikt een grof-naar-fijn filterstrategie om hoogwaardige GUI-tutorialvideo's te identificeren en om te zetten in gestructureerde agenttrajecten. Door deze pijplijn toe te passen op 500 miljoen videometadata-items bouwen we WildGUI, een grootschalige dataset met 12 miljoen interactietrajecten die meer dan 1.500 applicaties en websites bestrijken. Het vooraf trainen van Qwen2.5-VL en Mimo-VL op WildGUI levert consistente verbeteringen van 5-20% op bij meerdere GUI-verankering- en actiebenchmarks, wat gelijk is aan of beter is dan de state-of-the-art prestaties. We zullen zowel de WildGUI-dataset als de Video2GUI-pijplijn vrijgeven om toekomstig onderzoek naar GUI-agenten te ondersteunen.

English

Recent advances in multimodal large language models have driven growing interest in graphical user interface (GUI) agents, yet their generalization remains constrained by the scarcity of large-scale training data spanning diverse real-world applications. Existing datasets rely heavily on costly manual annotations and are typically confined to narrow domains. To address this challenge, we propose Video2GUI, a fully automated framework that extracts grounded GUI interaction trajectories directly from unlabeled Internet videos. Video2GUI employs a coarse-to-fine filtering strategy to identify high-quality GUI tutorial videos and convert them into structured agent trajectories. Applying this pipeline to 500 million video metadata entries, we construct WildGUI, a large-scale dataset containing 12 million interaction trajectories spanning over 1,500 applications and websites. Pre-training Qwen2.5-VL and Mimo-VL on WildGUI yields consistent improvements of 5-20% across multiple GUI grounding and action benchmarks, matching or surpassing state-of-the-art performance. We will release both the WildGUI dataset and the Video2GUI pipeline to support future research of GUI agents.