ChatPaper.aiChatPaper

OpenS2V-Nexus: Подробный эталонный тест и масштабный набор данных для генерации видео на основе субъекта

OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation

May 26, 2025
Авторы: Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan
cs.AI

Аннотация

Генерация видео на основе объекта (Subject-to-Video, S2V) направлена на создание видеороликов, которые точно отражают референсный контент, обеспечивая повышенную гибкость в производстве видео. Для создания инфраструктуры S2V-генерации мы предлагаем OpenS2V-Nexus, состоящий из (i) OpenS2V-Eval, детального бенчмарка, и (ii) OpenS2V-5M, миллионного набора данных. В отличие от существующих S2V-бенчмарков, унаследованных от VBench и ориентированных на глобальную и грубую оценку сгенерированных видео, OpenS2V-Eval фокусируется на способности модели создавать видео с согласованным объектом, естественным внешним видом и сохранением идентичности. Для этих целей OpenS2V-Eval включает 180 промптов из семи основных категорий S2V, которые охватывают как реальные, так и синтетические тестовые данные. Кроме того, для точного согласования человеческих предпочтений с S2V-бенчмарками мы предлагаем три автоматические метрики: NexusScore, NaturalScore и GmeScore, которые отдельно количественно оценивают согласованность объекта, естественность и релевантность текста в сгенерированных видео. На основе этого мы проводим всестороннюю оценку 16 репрезентативных S2V-моделей, выделяя их сильные и слабые стороны в различных типах контента. Более того, мы создаем первый открытый крупномасштабный набор данных для S2V-генерации OpenS2V-5M, который состоит из пяти миллионов высококачественных триплетов "объект-текст-видео" в разрешении 720P. В частности, мы обеспечиваем разнообразие информации об объектах в нашем наборе данных путем (1) сегментации объектов и построения парной информации через кросс-видео ассоциации и (2) использования GPT-Image-1 на исходных кадрах для синтеза многоплановых представлений. С помощью OpenS2V-Nexus мы предоставляем надежную инфраструктуру для ускорения будущих исследований в области S2V-генерации.
English
Subject-to-Video (S2V) generation aims to create videos that faithfully incorporate reference content, providing enhanced flexibility in the production of videos. To establish the infrastructure for S2V generation, we propose OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and (ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V benchmarks inherited from VBench that focus on global and coarse-grained assessment of generated videos, OpenS2V-Eval focuses on the model's ability to generate subject-consistent videos with natural subject appearance and identity fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven major categories of S2V, which incorporate both real and synthetic test data. Furthermore, to accurately align human preferences with S2V benchmarks, we propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to separately quantify subject consistency, naturalness, and text relevance in generated videos. Building on this, we conduct a comprehensive evaluation of 16 representative S2V models, highlighting their strengths and weaknesses across different content. Moreover, we create the first open-source large-scale S2V generation dataset OpenS2V-5M, which consists of five million high-quality 720P subject-text-video triples. Specifically, we ensure subject-information diversity in our dataset by (1) segmenting subjects and building pairing information via cross-video associations and (2) prompting GPT-Image-1 on raw frames to synthesize multi-view representations. Through OpenS2V-Nexus, we deliver a robust infrastructure to accelerate future S2V generation research.
PDF543May 28, 2025