ChatPaper.aiChatPaper

SpeakerVid-5M:大規模で高品質な音声-視覚的ダイアディックインタラクティブヒューマン生成のためのデータセット

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

July 14, 2025
著者: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
cs.AI

要旨

大規模モデルの急速な発展は、デジタルヒューマン領域における重要なブレークスルーを促進してきました。これらの先進的な手法は、アバターの駆動とレンダリングに対する高忠実度のソリューションを提供し、学界の焦点を次の主要な課題である視聴覚双方向インタラクティブ仮想ヒューマンに向けさせています。この新興領域の研究を促進するため、我々はSpeakerVid-5Mデータセットを提示します。これは、視聴覚双方向インタラクティブ仮想ヒューマン生成のために設計された初の大規模かつ高品質なデータセットです。合計8,743時間以上に及ぶSpeakerVid-5Mは、520万以上の人物ポートレート動画クリップを含んでいます。これらは、単一の会話、傾聴、双方向の対話など、多様なスケールとインタラクションタイプをカバーしています。重要な点として、このデータセットはインタラクションタイプとデータ品質という2つの主要な次元に沿って構造化されています。まず、インタラクションシナリオに基づいて4つのタイプ(対話ブランチ、単一ブランチ、傾聴ブランチ、多ターンブランチ)に分類されます。次に、大規模な事前学習用サブセットと、教師あり微調整(SFT)用の精選された高品質サブセットに階層化されています。この二重構造により、幅広い2D仮想ヒューマンタスクに対応しています。さらに、このデータに基づいて訓練された自己回帰(AR)ベースのビデオチャットベースラインを提供し、将来の研究のベンチマークとしてVidChatBenchと呼ばれる専用のメトリクスとテストデータを伴っています。データセットと対応するデータ処理コードは公開されます。プロジェクトページ: https://dorniwang.github.io/SpeakerVid-5M/
English
The rapid development of large-scale models has catalyzed significant breakthroughs in the digital human domain. These advanced methodologies offer high-fidelity solutions for avatar driving and rendering, leading academia to focus on the next major challenge: audio-visual dyadic interactive virtual human. To facilitate research in this emerging area, we present SpeakerVid-5M dataset, the first large-scale, high-quality dataset designed for audio-visual dyadic interactive virtual human generation. Totaling over 8,743 hours, SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It covers diverse scales and interaction types, including monadic talking, listening, and dyadic conversations. Crucially, the dataset is structured along two key dimensions: interaction type and data quality. First, it is categorized into four types (dialogue branch, single branch, listening branch and multi-turn branch) based on the interaction scenario. Second, it is stratified into a large-scale pre-training subset and a curated, high-quality subset for Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of 2D virtual human tasks. In addition, we provide an autoregressive (AR)-based video chat baseline trained on this data, accompanied by a dedicated set of metrics and test data to serve as a benchmark VidChatBench for future work. Both the dataset and the corresponding data processing code will be publicly released. Project page: https://dorniwang.github.io/SpeakerVid-5M/
PDF433July 15, 2025