ChatPaper.aiChatPaper

Синтетический Visual Genome 2: Извлечение крупномасштабных пространственно-временных сценарных графов из видеоданных

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

February 26, 2026
Авторы: Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna
cs.AI

Аннотация

Мы представляем Synthetic Visual Genome 2 (SVG2) — крупномасштабный датасет панорамных видео-сценовых графов. SVG2 содержит более 636 тыс. видеороликов с 6,6 млн объектов, 52,0 млн атрибутов и 6,7 млн отношений, что на порядок превосходит масштаб и разнообразие предыдущих пространственно-временных датасетов сценовых графов. Для создания SVG2 мы разработали полностью автоматизированный конвейер, объединяющий панорамную сегментацию в multiple масштабах, трекинг траекторий в онлайн- и офлайн-режимах с автоматическим обнаружением новых объектов, семантический парсинг на уровне траекторий и пространственно-временной вывод отношений на основе GPT-5. На основе этого ресурса мы обучаем TRaSER — модель генерации видео-сценовых графов. TRaSER расширяет возможности визуальных языковых моделей (VLM) за счёт механизма выравнивания токенов по траекториям и новых модулей: ресемплера объектных траекторий и ресемплера временных окон для преобразования исходных видео и панорамных траекторий в компактные пространственно-временные сценовые графы за один прямой проход. Ресемплер временных окон связывает визуальные токены с короткими сегментами траекторий для сохранения локальной динамики и временной семантики, а ресемплер объектных траекторий агрегирует полные траектории для поддержания глобального контекста объектов. На тестовых наборах данных PVSG, VIPSeg, VidOR и SVG2 модель TRaSER улучшает детекцию отношений на +15–20%, предсказание объектов — на +30–40% по сравнению с сильнейшими открытыми базовыми методами и на +13% относительно GPT-5, а предсказание атрибутов — на +15%. Когда сценовые графы, сгенерированные TRaSER, передаются в VLM для ответов на вопросы по видео, это обеспечивает прирост абсолютной точности на +1,5–4,6% по сравнению с использованием только видео или видео, дополненного сценовыми графами от Qwen2.5-VL, что демонстрирует полезность явных пространственно-временных сценовых графов в качестве промежуточного представления.
English
We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.
PDF21March 4, 2026