Video2GUI: Síntesis de Trayectorias de Interacción a Gran Escala para el Preentrenamiento de Agentes GUI Generalizados

Resumen

Los recientes avances en modelos de lenguaje multimodal a gran escala han impulsado un creciente interés en los agentes de interfaz gráfica de usuario (GUI), aunque su generalización sigue estando limitada por la escasez de datos de entrenamiento a gran escala que abarquen diversas aplicaciones del mundo real. Los conjuntos de datos existentes dependen en gran medida de anotaciones manuales costosas y suelen circunscribirse a dominios reducidos. Para abordar este desafío, proponemos Video2GUI, un marco completamente automatizado que extrae trayectorias de interacción fundamentadas con la GUI directamente de videos de Internet no etiquetados. Video2GUI emplea una estrategia de filtrado de grueso a fino para identificar videos tutoriales de GUI de alta calidad y convertirlos en trayectorias estructuradas para agentes. Al aplicar este proceso a 500 millones de entradas de metadatos de video, construimos WildGUI, un conjunto de datos a gran escala que contiene 12 millones de trayectorias de interacción que abarcan más de 1.500 aplicaciones y sitios web. El preentrenamiento de Qwen2.5-VL y Mimo-VL en WildGUI produce mejoras consistentes del 5-20% en múltiples puntos de referencia de fundamentación de GUI y acciones, igualando o superando el rendimiento de última generación. Publicaremos tanto el conjunto de datos WildGUI como el proceso Video2GUI para respaldar investigaciones futuras sobre agentes de GUI.

English

Recent advances in multimodal large language models have driven growing interest in graphical user interface (GUI) agents, yet their generalization remains constrained by the scarcity of large-scale training data spanning diverse real-world applications. Existing datasets rely heavily on costly manual annotations and are typically confined to narrow domains. To address this challenge, we propose Video2GUI, a fully automated framework that extracts grounded GUI interaction trajectories directly from unlabeled Internet videos. Video2GUI employs a coarse-to-fine filtering strategy to identify high-quality GUI tutorial videos and convert them into structured agent trajectories. Applying this pipeline to 500 million video metadata entries, we construct WildGUI, a large-scale dataset containing 12 million interaction trajectories spanning over 1,500 applications and websites. Pre-training Qwen2.5-VL and Mimo-VL on WildGUI yields consistent improvements of 5-20% across multiple GUI grounding and action benchmarks, matching or surpassing state-of-the-art performance. We will release both the WildGUI dataset and the Video2GUI pipeline to support future research of GUI agents.