Synthetic Visual Genome 2: Estrazione di Grafi Scene Spazio-Temporali su Larga Scala da Video
Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos
February 26, 2026
Autori: Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna
cs.AI
Abstract
Introduciamo Synthetic Visual Genome 2 (SVG2), un dataset su larga scala di scene graph panottici video. SVG2 contiene oltre 636.000 video con 6,6 milioni di oggetti, 52,0 milioni di attributi e 6,7 milioni di relazioni, offrendo un aumento di un ordine di grandezza in scala e diversità rispetto ai precedenti dataset di scene graph spazio-temporali. Per creare SVG2, abbiamo progettato una pipeline completamente automatizzata che combina segmentazione panottica multi-scala, tracciamento delle traiettorie online-offline con scoperta automatica di nuovi oggetti, analisi semantica per traiettoria e inferenza spazio-temporale delle relazioni basata su GPT-5. Basandoci su questa risorsa, addestriamo TRaSER, un modello di generazione di scene graph video. TRaSER potenzia i VLM con un meccanismo di disposizione dei token allineato alle traiettorie e nuovi moduli: un ricampionatore di oggetti-traiettorie e un ricampionatore a finestra temporale per convertire video grezzi e traiettorie panottiche in scene graph spazio-temporali compatti in un singolo passaggio in avanti. Il ricampionatore a finestra temporale associa i token visivi a brevi segmenti di traiettoria per preservare il movimento locale e la semantica temporale, mentre il ricampionatore di oggetti-traiettorie aggrega intere traiettorie per mantenere il contesto globale degli oggetti. Sui dataset di test PVSG, VIPSeg, VidOR e SVG2, TRaSER migliora il rilevamento delle relazioni del +15-20%, la predizione degli oggetti del +30-40% rispetto ai baseline open-source più robusti e del +13% rispetto a GPT-5, e la predizione degli attributi del +15%. Quando i scene graph generati da TRaSER vengono inviati a un VLM per attività di video question answering, si ottiene un guadagno assoluto di accuratezza da +1,5 a +4,6% rispetto all'uso del solo video o del video arricchito con i scene graph generati da Qwen2.5-VL, dimostrando l'utilità dei scene graph spazio-temporali espliciti come rappresentazione intermedia.
English
We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.