Génome Visuel Synthétique 2 : Extraction de graphes de scènes spatio-temporels à grande échelle à partir de vidéos
Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos
February 26, 2026
Auteurs: Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna
cs.AI
Résumé
Nous présentons Synthetic Visual Genome 2 (SVG2), un vaste ensemble de données de graphes de scènes vidéo panoptiques. SVG2 contient plus de 636 000 vidéos avec 6,6 millions d'objets, 52,0 millions d'attributs et 6,7 millions de relations, offrant une augmentation d'un ordre de grandeur en échelle et en diversité par rapport aux ensembles de données antérieurs de graphes de scènes spatio-temporels. Pour créer SVG2, nous avons conçu un pipeline entièrement automatisé qui combine la segmentation panoptique multi-échelle, le suivi de trajectoires en ligne-hors ligne avec découverte automatique de nouveaux objets, l'analyse sémantique par trajectoire et l'inférence de relations spatio-temporelles basée sur GPT-5. En nous appuyant sur cette ressource, nous entraînons TRaSER, un modèle de génération de graphes de scènes vidéo. TRaSER améliore les modèles de vision et langage (VLM) avec un mécanisme d'agencement de tokens aligné sur les trajectoires et de nouveaux modules : un rééchantillonneur d'objets-trajectoires et un rééchantillonneur de fenêtres temporelles pour convertir les vidéos brutes et les trajectoires panoptiques en graphes de scènes spatio-temporels compacts en une seule passe avant. Le rééchantillonneur de fenêtres temporelles lie les tokens visuels à de courts segments de trajectoire pour préserver le mouvement local et la sémantique temporelle, tandis que le rééchantillonneur d'objets-trajectoires agrège les trajectoires entières pour maintenir le contexte global des objets. Sur les ensembles de données de test PVSG, VIPSeg, VidOR et SVG2, TRaSER améliore la détection des relations de +15 à 20 %, la prédiction d'objets de +30 à 40 % par rapport aux meilleurs modèles de référence open-source et de +13 % par rapport à GPT-5, et la prédiction d'attributs de +15 %. Lorsque les graphes de scènes générés par TRaSER sont envoyés à un VLM pour la réponse à des questions sur vidéo, celui-ci obtient un gain de précision absolue de +1,5 à 4,6 % par rapport à l'utilisation de la vidéo seule ou de la vidéo augmentée des graphes de scènes générés par Qwen2.5-VL, démontrant l'utilité des graphes de scènes spatio-temporels explicites comme représentation intermédiaire.
English
We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.