Синтетический Visual Genome 2: Извлечение крупномасштабных пространственно-временных сценарных графов из видеоданных

Аннотация

Мы представляем Synthetic Visual Genome 2 (SVG2) — крупномасштабный датасет панорамных видео-сценовых графов. SVG2 содержит более 636 тыс. видеороликов с 6,6 млн объектов, 52,0 млн атрибутов и 6,7 млн отношений, что на порядок превосходит масштаб и разнообразие предыдущих пространственно-временных датасетов сценовых графов. Для создания SVG2 мы разработали полностью автоматизированный конвейер, объединяющий панорамную сегментацию в multiple масштабах, трекинг траекторий в онлайн- и офлайн-режимах с автоматическим обнаружением новых объектов, семантический парсинг на уровне траекторий и пространственно-временной вывод отношений на основе GPT-5. На основе этого ресурса мы обучаем TRaSER — модель генерации видео-сценовых графов. TRaSER расширяет возможности визуальных языковых моделей (VLM) за счёт механизма выравнивания токенов по траекториям и новых модулей: ресемплера объектных траекторий и ресемплера временных окон для преобразования исходных видео и панорамных траекторий в компактные пространственно-временные сценовые графы за один прямой проход. Ресемплер временных окон связывает визуальные токены с короткими сегментами траекторий для сохранения локальной динамики и временной семантики, а ресемплер объектных траекторий агрегирует полные траектории для поддержания глобального контекста объектов. На тестовых наборах данных PVSG, VIPSeg, VidOR и SVG2 модель TRaSER улучшает детекцию отношений на +15–20%, предсказание объектов — на +30–40% по сравнению с сильнейшими открытыми базовыми методами и на +13% относительно GPT-5, а предсказание атрибутов — на +15%. Когда сценовые графы, сгенерированные TRaSER, передаются в VLM для ответов на вопросы по видео, это обеспечивает прирост абсолютной точности на +1,5–4,6% по сравнению с использованием только видео или видео, дополненного сценовыми графами от Qwen2.5-VL, что демонстрирует полезность явных пространственно-временных сценовых графов в качестве промежуточного представления.

English

We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.

Синтетический Visual Genome 2: Извлечение крупномасштабных пространственно-временных сценарных графов из видеоданных

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Аннотация

Support