Synthetic Visual Genome 2: Extracción de Grafos Escénicos Espacio-Temporales a Gran Escala a partir de Vídeos

Resumen

Presentamos Synthetic Visual Genome 2 (SVG2), un conjunto de datos a gran escala de grafos de escena panópticos en video. SVG2 contiene más de 636K videos con 6.6M de objetos, 52.0M de atributos y 6.7M de relaciones, lo que supone un aumento de un orden de magnitud en escala y diversidad respecto a conjuntos de datos anteriores de grafos de escena espacio-temporales. Para crear SVG2, diseñamos un pipeline completamente automatizado que combina segmentación panóptica multi-escala, seguimiento de trayectorias en línea y fuera de línea con descubrimiento automático de nuevos objetos, análisis semántico por trayectoria e inferencia de relaciones espacio-temporales basada en GPT-5. Sobre este recurso, entrenamos TRaSER, un modelo de generación de grafos de escena en video. TRaSER aumenta los Modelos de Lenguaje Visual (VLM) con un mecanismo de disposición de tokens alineado con trayectorias y nuevos módulos: un remuestreador de trayectorias de objetos y un remuestreador de ventana temporal para convertir videos brutos y trayectorias panópticas en grafos de escena espacio-temporales compactos en una sola pasada forward. El remuestreador de ventana temporal vincula tokens visuales a segmentos cortos de trayectoria para preservar el movimiento local y la semántica temporal, mientras que el remuestreador de trayectorias de objetos agrega trayectorias completas para mantener el contexto global de los objetos. En los conjuntos de datos de prueba PVSG, VIPSeg, VidOR y SVG2, TRaSER mejora la detección de relaciones entre +15 y 20%, la predicción de objetos entre +30 y 40% respecto a las bases de referencia de código abierto más sólidas y en +13% respecto a GPT-5, y la predicción de atributos en +15%. Cuando los grafos de escena generados por TRaSER se envían a un VLM para respuesta a preguntas sobre video, se obtiene una ganancia de precisión absoluta de +1.5 a 4.6% respecto a usar solo video o video aumentado con los grafos de escena generados por Qwen2.5-VL, lo que demuestra la utilidad de los grafos de escena espacio-temporales explícitos como representación intermedia.

English

We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.

Synthetic Visual Genome 2: Extracción de Grafos Escénicos Espacio-Temporales a Gran Escala a partir de Vídeos

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Resumen

Support