Synthetic Visual Genome 2: Extração de Grafos de Cena Espaço-Temporais em Larga Escala a partir de Vídeos

Resumo

Apresentamos o Synthetic Visual Genome 2 (SVG2), um grande conjunto de dados de grafos de cena panópticos em vídeo. O SVG2 contém mais de 636 mil vídeos com 6,6 milhões de objetos, 52,0 milhões de atributos e 6,7 milhões de relações, representando um aumento de uma ordem de grandeza na escala e diversidade em relação aos conjuntos de dados anteriores de grafos de cena espaço-temporais. Para criar o SVG2, projetamos um *pipeline* totalmente automatizado que combina segmentação panóptica multiescala, rastreamento de trajetórias online-offline com descoberta automática de novos objetos, análise semântica por trajetória e inferência de relações espaço-temporais baseada no GPT-5. Com base neste recurso, treinamos o TRaSER, um modelo de geração de grafos de cena em vídeo. O TRaSER amplia os Modelos de Linguagem Visual (VLMs) com um mecanismo de organização de *tokens* alinhados a trajetórias e novos módulos: um reamostrador de trajetórias de objetos e um reamostrador de janela temporal para converter vídeos brutos e trajetórias panópticas em grafos de cena espaço-temporais compactos em uma única passagem direta. O reamostrador de janela temporal vincula os *tokens* visuais a segmentos curtos de trajetória para preservar o movimento local e a semântica temporal, enquanto o reamostrador de trajetórias de objetos agrega trajetórias inteiras para manter o contexto global dos objetos. Nos conjuntos de dados de teste PVSG, VIPSeg, VidOR e SVG2, o TRaSER melhora a detecção de relações em +15 a 20%, a previsão de objetos em +30 a 40% em relação às *baselines* de código aberto mais robustas e em +13% sobre o GPT-5, e a previsão de atributos em +15%. Quando os grafos de cena gerados pelo TRaSER são enviados para um VLM para resposta a perguntas em vídeo, ele proporciona um ganho de precisão absoluta de +1,5 a 4,6% em relação ao uso apenas de vídeo ou de vídeo aumentado com grafos de cena gerados pelo Qwen2.5-VL, demonstrando a utilidade de grafos de cena espaço-temporais explícitos como uma representação intermediária.

English

We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.

Synthetic Visual Genome 2: Extração de Grafos de Cena Espaço-Temporais em Larga Escala a partir de Vídeos

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Resumo

Support