OpenS2V-Nexus: 主題から動画生成のための詳細なベンチマークと百万規模のデータセット
OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation
May 26, 2025
著者: Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan
cs.AI
要旨
Subject-to-Video(S2V)生成は、参照コンテンツを忠実に取り入れたビデオを作成することを目的としており、ビデオ制作における柔軟性を向上させます。S2V生成の基盤を確立するために、我々はOpenS2V-Nexusを提案します。これは、(i) 細粒度のベンチマークであるOpenS2V-Evalと、(ii) 大規模データセットであるOpenS2V-5Mで構成されています。既存のVBenchから継承されたS2Vベンチマークが生成ビデオの全体的かつ粗粒度な評価に焦点を当てているのに対し、OpenS2V-Evalは、モデルが被写体の一貫性を保ち、自然な被写体の外観と同一性の忠実性を備えたビデオを生成する能力に焦点を当てています。この目的のために、OpenS2V-Evalは、S2Vの7つの主要カテゴリから180のプロンプトを導入し、実データと合成データの両方を組み込んでいます。さらに、人間の好みをS2Vベンチマークに正確に反映させるために、NexusScore、NaturalScore、GmeScoreという3つの自動評価指標を提案し、生成ビデオにおける被写体の一貫性、自然さ、テキスト関連性を個別に定量化します。これに基づいて、16の代表的なS2Vモデルを包括的に評価し、異なるコンテンツにおけるそれらの強みと弱みを明らかにします。さらに、初のオープンソース大規模S2V生成データセットであるOpenS2V-5Mを作成しました。これは、500万の高品質な720Pの被写体-テキスト-ビデオのトリプルで構成されています。具体的には、(1) 被写体をセグメント化し、ビデオ間の関連性を通じてペアリング情報を構築し、(2) 生のフレームに対してGPT-Image-1をプロンプトして多視点表現を合成することで、データセットにおける被写体情報の多様性を確保しました。OpenS2V-Nexusを通じて、将来のS2V生成研究を加速するための堅牢な基盤を提供します。
English
Subject-to-Video (S2V) generation aims to create videos that faithfully
incorporate reference content, providing enhanced flexibility in the production
of videos. To establish the infrastructure for S2V generation, we propose
OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and
(ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V
benchmarks inherited from VBench that focus on global and coarse-grained
assessment of generated videos, OpenS2V-Eval focuses on the model's ability to
generate subject-consistent videos with natural subject appearance and identity
fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven
major categories of S2V, which incorporate both real and synthetic test data.
Furthermore, to accurately align human preferences with S2V benchmarks, we
propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to
separately quantify subject consistency, naturalness, and text relevance in
generated videos. Building on this, we conduct a comprehensive evaluation of 16
representative S2V models, highlighting their strengths and weaknesses across
different content. Moreover, we create the first open-source large-scale S2V
generation dataset OpenS2V-5M, which consists of five million high-quality 720P
subject-text-video triples. Specifically, we ensure subject-information
diversity in our dataset by (1) segmenting subjects and building pairing
information via cross-video associations and (2) prompting GPT-Image-1 on raw
frames to synthesize multi-view representations. Through OpenS2V-Nexus, we
deliver a robust infrastructure to accelerate future S2V generation research.Summary
AI-Generated Summary