Video2GUI: Synthese groß angelegter Interaktionstrajektorien für das Pretraining generalisierter GUI-Agenten

Zusammenfassung

Jüngste Fortschritte bei multimodalen großen Sprachmodellen haben ein wachsendes Interesse an Agenten für grafische Benutzeroberflächen (GUI) geweckt, doch deren Generalisierungsfähigkeit bleibt durch die Knappheit groß angelegter Trainingsdaten, die eine Vielzahl realer Anwendungen abdecken, eingeschränkt. Bestehende Datensätze beruhen stark auf teuren manuellen Annotationen und sind typischerweise auf enge Domänen beschränkt. Um diese Herausforderung zu bewältigen, schlagen wir Video2GUI vor, ein vollautomatisches Framework, das fundierte GUI-Interaktionspfade direkt aus unbeschrifteten Internetvideos extrahiert. Video2GUI verwendet eine Grob-zu-Fein-Filterstrategie, um qualitativ hochwertige GUI-Tutorial-Videos zu identifizieren und in strukturierte Agentenpfade umzuwandeln. Durch Anwendung dieser Pipeline auf 500 Millionen Video-Metadaten-Einträge erstellen wir WildGUI, einen groß angelegten Datensatz mit 12 Millionen Interaktionspfaden, die über 1.500 Anwendungen und Websites umfassen. Das Vortraining von Qwen2.5-VL und Mimo-VL auf WildGUI führt zu konsistenten Verbesserungen von 5–20 % bei mehreren Benchmarks für GUI-Grounding und -Aktionen, wobei die Leistung dem Stand der Technik entspricht oder diese übertrifft. Wir werden sowohl den WildGUI-Datensatz als auch die Video2GUI-Pipeline veröffentlichen, um die zukünftige Forschung an GUI-Agenten zu unterstützen.

English

Recent advances in multimodal large language models have driven growing interest in graphical user interface (GUI) agents, yet their generalization remains constrained by the scarcity of large-scale training data spanning diverse real-world applications. Existing datasets rely heavily on costly manual annotations and are typically confined to narrow domains. To address this challenge, we propose Video2GUI, a fully automated framework that extracts grounded GUI interaction trajectories directly from unlabeled Internet videos. Video2GUI employs a coarse-to-fine filtering strategy to identify high-quality GUI tutorial videos and convert them into structured agent trajectories. Applying this pipeline to 500 million video metadata entries, we construct WildGUI, a large-scale dataset containing 12 million interaction trajectories spanning over 1,500 applications and websites. Pre-training Qwen2.5-VL and Mimo-VL on WildGUI yields consistent improvements of 5-20% across multiple GUI grounding and action benchmarks, matching or surpassing state-of-the-art performance. We will release both the WildGUI dataset and the Video2GUI pipeline to support future research of GUI agents.