Video2GUI: Síntese de Trajetórias de Interação em Grande Escala para o Pré-treinamento de Agentes GUI Generalizados

Resumo

Avanços recentes em modelos de linguagem grandes multimodais têm impulsionado o crescente interesse em agentes de interface gráfica do usuário (GUI), mas sua generalização ainda é limitada pela escassez de dados de treinamento em larga escala que abranjam diversas aplicações do mundo real. Conjuntos de dados existentes dependem fortemente de anotações manuais custosas e geralmente se restringem a domínios estreitos. Para enfrentar esse desafio, propomos o Video2GUI, uma estrutura totalmente automatizada que extrai trajetórias de interação GUI fundamentadas diretamente de vídeos da Internet não rotulados. O Video2GUI emprega uma estratégia de filtragem de grosseiro a fino para identificar vídeos tutoriais GUI de alta qualidade e convertê-los em trajetórias estruturadas de agente. Aplicando esse pipeline a 500 milhões de entradas de metadados de vídeo, construímos o WildGUI, um conjunto de dados em larga escala contendo 12 milhões de trajetórias de interação abrangendo mais de 1.500 aplicativos e sites. O pré-treinamento do Qwen2.5-VL e do Mimo-VL no WildGUI resulta em melhorias consistentes de 5 a 20% em vários benchmarks de fundamentação e ação GUI, igualando ou superando o desempenho de ponta. Disponibilizaremos tanto o conjunto de dados WildGUI quanto o pipeline Video2GUI para apoiar futuras pesquisas sobre agentes GUI.

English

Recent advances in multimodal large language models have driven growing interest in graphical user interface (GUI) agents, yet their generalization remains constrained by the scarcity of large-scale training data spanning diverse real-world applications. Existing datasets rely heavily on costly manual annotations and are typically confined to narrow domains. To address this challenge, we propose Video2GUI, a fully automated framework that extracts grounded GUI interaction trajectories directly from unlabeled Internet videos. Video2GUI employs a coarse-to-fine filtering strategy to identify high-quality GUI tutorial videos and convert them into structured agent trajectories. Applying this pipeline to 500 million video metadata entries, we construct WildGUI, a large-scale dataset containing 12 million interaction trajectories spanning over 1,500 applications and websites. Pre-training Qwen2.5-VL and Mimo-VL on WildGUI yields consistent improvements of 5-20% across multiple GUI grounding and action benchmarks, matching or surpassing state-of-the-art performance. We will release both the WildGUI dataset and the Video2GUI pipeline to support future research of GUI agents.