Synthetisches Visual Genome 2: Extraktion großräumiger räumlich-zeitlicher Szenengraphen aus Videos

Zusammenfassung

Wir stellen Synthetic Visual Genome 2 (SVG2) vor, einen großflächigen panoptischen Video-Szenengraph-Datensatz. SVG2 umfasst über 636.000 Videos mit 6,6 Millionen Objekten, 52,0 Millionen Attributen und 6,7 Millionen Relationen und bietet damit eine Größenvorteil um eine Größenordnung sowie mehr Vielfalt als frühere räumlich-zeitliche Szenengraph-Datensätze. Für die Erstellung von SVG2 entwickelten wir eine vollautomatische Pipeline, die multi-skaliere panoptische Segmentierung, Online-Offline-Trajektorienverfolgung mit automatischer Neuobjekterkennung, semantisches Parsing pro Trajektorie und räumlich-zeitliche Relationsinferenz auf Basis von GPT-5 kombiniert. Aufbauend auf dieser Ressource trainieren wir TRaSER, ein Modell zur Generierung von Video-Szenengraphen. TRaSER erweitert VLMs mit einem trajektorienausgerichteten Token-Anordnungsmechanismus und neuen Modulen: einem Objekt-Trajektorien-Resampler und einem Temporal-Window-Resampler, um Rohvideos und panoptische Trajektorien in einem einzigen Vorwärtsdurchlauf in kompakte räumlich-zeitliche Szenengraphen umzuwandeln. Der Temporal-Window-Resampler bindet visuelle Tokens an kurze Trajektoriensegmente, um lokale Bewegung und zeitliche Semantik zu erhalten, während der Objekt-Trajektorien-Resampler gesamte Trajektorien aggregiert, um den globalen Kontext für Objekte beizubehalten. Auf den Testdatensätzen PVSG, VIPSeg, VidOR und SVG2 verbessert TRaSER die Relationserkennung um +15 bis 20 %, die Objektvorhersage um +30 bis 40 % gegenüber den stärksten Open-Source-Baselines und um +13 % gegenüber GPT-5 sowie die Attributvorhersage um +15 %. Wenn die von TRaSER generierten Szenengraphen an ein VLM für Video-Frage-Antwort-Aufgaben gesendet werden, erzielt es einen absoluten Genauigkeitszuwachs von +1,5 bis 4,6 % gegenüber der Verwendung von nur Video oder video, das mit von Qwen2.5-VL generierten Szenengraphen angereichert wurde, was den Nutzen expliziter räumlich-zeitlicher Szenengraphen als Zwischendarstellung demonstriert.

English

We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.

Synthetisches Visual Genome 2: Extraktion großräumiger räumlich-zeitlicher Szenengraphen aus Videos

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Zusammenfassung

Support