SpeakerVid-5M: Un Dataset Su Scala Ampia e di Alta Qualità per la Generazione Audio-Visuale di Interazioni Umane Diadiche
SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation
July 14, 2025
Autori: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
cs.AI
Abstract
Il rapido sviluppo di modelli su larga scala ha catalizzato significativi progressi nel dominio degli umani digitali. Queste metodologie avanzate offrono soluzioni ad alta fedeltà per la guida e il rendering di avatar, portando il mondo accademico a concentrarsi sulla prossima grande sfida: l'umano virtuale interattivo audio-visivo diadico. Per facilitare la ricerca in questo settore emergente, presentiamo il dataset SpeakerVid-5M, il primo dataset su larga scala e di alta qualità progettato per la generazione di umani virtuali interattivi audio-visivi diadici. Con un totale di oltre 8.743 ore, SpeakerVid-5M contiene più di 5,2 milioni di clip video di ritratti umani. Copre diverse scale e tipi di interazione, tra cui monologhi, ascolto e conversazioni diadiche. Fondamentalmente, il dataset è strutturato lungo due dimensioni chiave: tipo di interazione e qualità dei dati. In primo luogo, è suddiviso in quattro tipologie (ramo dialogo, ramo singolo, ramo ascolto e ramo multi-turn) in base allo scenario di interazione. In secondo luogo, è stratificato in un sottoinsieme su larga scala per il pre-training e un sottoinsieme curato e di alta qualità per il Fine-Tuning Supervisionato (SFT). Questa struttura duale si adatta a una vasta gamma di task per umani virtuali 2D. Inoltre, forniamo una baseline di chat video basata su autoregressione (AR) addestrata su questi dati, accompagnata da un set dedicato di metriche e dati di test per servire come benchmark VidChatBench per lavori futuri. Sia il dataset che il corrispondente codice di elaborazione dei dati saranno rilasciati pubblicamente. Pagina del progetto: https://dorniwang.github.io/SpeakerVid-5M/
English
The rapid development of large-scale models has catalyzed significant
breakthroughs in the digital human domain. These advanced methodologies offer
high-fidelity solutions for avatar driving and rendering, leading academia to
focus on the next major challenge: audio-visual dyadic interactive virtual
human. To facilitate research in this emerging area, we present SpeakerVid-5M
dataset, the first large-scale, high-quality dataset designed for audio-visual
dyadic interactive virtual human generation. Totaling over 8,743 hours,
SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It
covers diverse scales and interaction types, including monadic talking,
listening, and dyadic conversations. Crucially, the dataset is structured along
two key dimensions: interaction type and data quality. First, it is categorized
into four types (dialogue branch, single branch, listening branch and
multi-turn branch) based on the interaction scenario. Second, it is stratified
into a large-scale pre-training subset and a curated, high-quality subset for
Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of
2D virtual human tasks. In addition, we provide an autoregressive (AR)-based
video chat baseline trained on this data, accompanied by a dedicated set of
metrics and test data to serve as a benchmark VidChatBench for future work.
Both the dataset and the corresponding data processing code will be publicly
released. Project page: https://dorniwang.github.io/SpeakerVid-5M/