Synthetic Visual Genome 2: Estrazione di Grafi Scene Spazio-Temporali su Larga Scala da Video

Abstract

Introduciamo Synthetic Visual Genome 2 (SVG2), un dataset su larga scala di scene graph panottici video. SVG2 contiene oltre 636.000 video con 6,6 milioni di oggetti, 52,0 milioni di attributi e 6,7 milioni di relazioni, offrendo un aumento di un ordine di grandezza in scala e diversità rispetto ai precedenti dataset di scene graph spazio-temporali. Per creare SVG2, abbiamo progettato una pipeline completamente automatizzata che combina segmentazione panottica multi-scala, tracciamento delle traiettorie online-offline con scoperta automatica di nuovi oggetti, analisi semantica per traiettoria e inferenza spazio-temporale delle relazioni basata su GPT-5. Basandoci su questa risorsa, addestriamo TRaSER, un modello di generazione di scene graph video. TRaSER potenzia i VLM con un meccanismo di disposizione dei token allineato alle traiettorie e nuovi moduli: un ricampionatore di oggetti-traiettorie e un ricampionatore a finestra temporale per convertire video grezzi e traiettorie panottiche in scene graph spazio-temporali compatti in un singolo passaggio in avanti. Il ricampionatore a finestra temporale associa i token visivi a brevi segmenti di traiettoria per preservare il movimento locale e la semantica temporale, mentre il ricampionatore di oggetti-traiettorie aggrega intere traiettorie per mantenere il contesto globale degli oggetti. Sui dataset di test PVSG, VIPSeg, VidOR e SVG2, TRaSER migliora il rilevamento delle relazioni del +15-20%, la predizione degli oggetti del +30-40% rispetto ai baseline open-source più robusti e del +13% rispetto a GPT-5, e la predizione degli attributi del +15%. Quando i scene graph generati da TRaSER vengono inviati a un VLM per attività di video question answering, si ottiene un guadagno assoluto di accuratezza da +1,5 a +4,6% rispetto all'uso del solo video o del video arricchito con i scene graph generati da Qwen2.5-VL, dimostrando l'utilità dei scene graph spazio-temporali espliciti come rappresentazione intermedia.

English

We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.

Synthetic Visual Genome 2: Estrazione di Grafi Scene Spazio-Temporali su Larga Scala da Video

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Abstract

Support