Synthetic Visual Genome 2: Extração de Grafos de Cena Espaço-Temporais em Larga Escala a partir de Vídeos
Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos
February 26, 2026
Autores: Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna
cs.AI
Resumo
Apresentamos o Synthetic Visual Genome 2 (SVG2), um grande conjunto de dados de grafos de cena panópticos em vídeo. O SVG2 contém mais de 636 mil vídeos com 6,6 milhões de objetos, 52,0 milhões de atributos e 6,7 milhões de relações, representando um aumento de uma ordem de grandeza na escala e diversidade em relação aos conjuntos de dados anteriores de grafos de cena espaço-temporais. Para criar o SVG2, projetamos um *pipeline* totalmente automatizado que combina segmentação panóptica multiescala, rastreamento de trajetórias online-offline com descoberta automática de novos objetos, análise semântica por trajetória e inferência de relações espaço-temporais baseada no GPT-5. Com base neste recurso, treinamos o TRaSER, um modelo de geração de grafos de cena em vídeo. O TRaSER amplia os Modelos de Linguagem Visual (VLMs) com um mecanismo de organização de *tokens* alinhados a trajetórias e novos módulos: um reamostrador de trajetórias de objetos e um reamostrador de janela temporal para converter vídeos brutos e trajetórias panópticas em grafos de cena espaço-temporais compactos em uma única passagem direta. O reamostrador de janela temporal vincula os *tokens* visuais a segmentos curtos de trajetória para preservar o movimento local e a semântica temporal, enquanto o reamostrador de trajetórias de objetos agrega trajetórias inteiras para manter o contexto global dos objetos. Nos conjuntos de dados de teste PVSG, VIPSeg, VidOR e SVG2, o TRaSER melhora a detecção de relações em +15 a 20%, a previsão de objetos em +30 a 40% em relação às *baselines* de código aberto mais robustas e em +13% sobre o GPT-5, e a previsão de atributos em +15%. Quando os grafos de cena gerados pelo TRaSER são enviados para um VLM para resposta a perguntas em vídeo, ele proporciona um ganho de precisão absoluta de +1,5 a 4,6% em relação ao uso apenas de vídeo ou de vídeo aumentado com grafos de cena gerados pelo Qwen2.5-VL, demonstrando a utilidade de grafos de cena espaço-temporais explícitos como uma representação intermediária.
English
We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.