Synthetisch Visueel Genoom 2: Extractie van grootschalige ruimtelijk-temporele scènegrafen uit video's
Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos
February 26, 2026
Auteurs: Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna
cs.AI
Samenvatting
Wij introduceren Synthetic Visual Genome 2 (SVG2), een grootschalige panoptische videoscènegrafiekdataset. SVG2 bevat meer dan 636.000 video's met 6,6 miljoen objecten, 52,0 miljoen attributen en 6,7 miljoen relaties, wat een orde van grootte meer schaal en diversiteit biedt vergeleken met eerdere spatio-temporele scènegrafiekdatasets. Voor de creatie van SVG2 ontwikkelden we een volledig geautomatiseerde pijplijn die multi-schaal panoptische segmentatie, online-offline trajecttracking met automatische detectie van nieuwe objecten, semantische parsing per traject en op GPT-5 gebaseerde spatio-temporele relatie-inferentie combineert. Gebaseerd op deze bron trainen we TRaSER, een model voor het genereren van videoscènegrafen. TRaSER breidt VLMs uit met een mechanisme voor traject-uitgelijnde tokenarrangering en nieuwe modules: een object-traject herbemonsteraar en een tijdvenster-herbemonsteraar om ruwe video's en panoptische trajecten in één enkele forward pass om te zetten in compacte spatio-temporele scènegrafen. De tijdvenster-herbemonsteraar koppelt visuele tokens aan korte trajectsegmenten om lokale beweging en temporele semantiek te behouden, terwijl de object-traject herbemonsteraar volledige trajecten aggregeert om de globale context voor objecten te behouden. Op de PVSG-, VIPSeg-, VidOR- en SVG2-testdatasets verbetert TRaSER relatiedetectie met +15 tot 20%, objectvoorspelling met +30 tot 40% ten opzichte van de sterkste open-source basislijnen en met +13% ten opzichte van GPT-5, en attribuutvoorspelling met +15%. Wanneer de door TRaSER gegenereerde scènegrafen naar een VLM worden gestuurd voor video question answering, levert dit een absolute nauwkeurigheidswinst op van +1,5 tot 4,6% ten opzichte van het gebruik van alleen video of video aangevuld met door Qwen2.5-VL gegenereerde scènegrafen, wat het nut aantoont van expliciete spatio-temporele scènegrafen als een intermediaire representatie.
English
We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.