ChatPaper.aiChatPaper

Synthetisches Visual Genome 2: Extraktion großräumiger räumlich-zeitlicher Szenengraphen aus Videos

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

February 26, 2026
Autoren: Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna
cs.AI

Zusammenfassung

Wir stellen Synthetic Visual Genome 2 (SVG2) vor, einen großflächigen panoptischen Video-Szenengraph-Datensatz. SVG2 umfasst über 636.000 Videos mit 6,6 Millionen Objekten, 52,0 Millionen Attributen und 6,7 Millionen Relationen und bietet damit eine Größenvorteil um eine Größenordnung sowie mehr Vielfalt als frühere räumlich-zeitliche Szenengraph-Datensätze. Für die Erstellung von SVG2 entwickelten wir eine vollautomatische Pipeline, die multi-skaliere panoptische Segmentierung, Online-Offline-Trajektorienverfolgung mit automatischer Neuobjekterkennung, semantisches Parsing pro Trajektorie und räumlich-zeitliche Relationsinferenz auf Basis von GPT-5 kombiniert. Aufbauend auf dieser Ressource trainieren wir TRaSER, ein Modell zur Generierung von Video-Szenengraphen. TRaSER erweitert VLMs mit einem trajektorienausgerichteten Token-Anordnungsmechanismus und neuen Modulen: einem Objekt-Trajektorien-Resampler und einem Temporal-Window-Resampler, um Rohvideos und panoptische Trajektorien in einem einzigen Vorwärtsdurchlauf in kompakte räumlich-zeitliche Szenengraphen umzuwandeln. Der Temporal-Window-Resampler bindet visuelle Tokens an kurze Trajektoriensegmente, um lokale Bewegung und zeitliche Semantik zu erhalten, während der Objekt-Trajektorien-Resampler gesamte Trajektorien aggregiert, um den globalen Kontext für Objekte beizubehalten. Auf den Testdatensätzen PVSG, VIPSeg, VidOR und SVG2 verbessert TRaSER die Relationserkennung um +15 bis 20 %, die Objektvorhersage um +30 bis 40 % gegenüber den stärksten Open-Source-Baselines und um +13 % gegenüber GPT-5 sowie die Attributvorhersage um +15 %. Wenn die von TRaSER generierten Szenengraphen an ein VLM für Video-Frage-Antwort-Aufgaben gesendet werden, erzielt es einen absoluten Genauigkeitszuwachs von +1,5 bis 4,6 % gegenüber der Verwendung von nur Video oder video, das mit von Qwen2.5-VL generierten Szenengraphen angereichert wurde, was den Nutzen expliziter räumlich-zeitlicher Szenengraphen als Zwischendarstellung demonstriert.
English
We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.
PDF21March 4, 2026