SpeakerVid-5M: Een grootschalige dataset van hoge kwaliteit voor audiovisuele dyadische interactieve menselijke generatie
SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation
July 14, 2025
Auteurs: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
cs.AI
Samenvatting
De snelle ontwikkeling van grootschalige modellen heeft aanzienlijke doorbraken in het domein van digitale mensen versneld. Deze geavanceerde methodologieën bieden hoogwaardige oplossingen voor avatarsturing en -rendering, waardoor de academische wereld zich richt op de volgende grote uitdaging: audio-visuele dyadische interactieve virtuele mensen. Om onderzoek in dit opkomende gebied te faciliteren, presenteren we de SpeakerVid-5M dataset, de eerste grootschalige, hoogwaardige dataset die is ontworpen voor het genereren van audio-visuele dyadische interactieve virtuele mensen. Met in totaal meer dan 8.743 uur bevat SpeakerVid-5M meer dan 5,2 miljoen videoclips van menselijke portretten. Het bestrijkt diverse schalen en interactietypen, waaronder monadisch praten, luisteren en dyadische gesprekken. Cruciaal is dat de dataset is gestructureerd langs twee belangrijke dimensies: interactietype en datakwaliteit. Ten eerste is het gecategoriseerd in vier typen (dialoogtak, enkele tak, luistertak en multi-turn tak) op basis van het interactiescenario. Ten tweede is het gestratificeerd in een grootschalige voorafgaande trainingssubset en een gecureerde, hoogwaardige subset voor Supervised Fine-Tuning (SFT). Deze dubbele structuur accommodeert een breed scala aan 2D virtuele mensentaken. Daarnaast bieden we een autoregressieve (AR)-gebaseerde videochat-baseline die op deze data is getraind, vergezeld van een toegewijd set metriek en testdata om te dienen als een benchmark VidChatBench voor toekomstig werk. Zowel de dataset als de bijbehorende dataverwerkingscode zullen openbaar worden vrijgegeven. Projectpagina: https://dorniwang.github.io/SpeakerVid-5M/
English
The rapid development of large-scale models has catalyzed significant
breakthroughs in the digital human domain. These advanced methodologies offer
high-fidelity solutions for avatar driving and rendering, leading academia to
focus on the next major challenge: audio-visual dyadic interactive virtual
human. To facilitate research in this emerging area, we present SpeakerVid-5M
dataset, the first large-scale, high-quality dataset designed for audio-visual
dyadic interactive virtual human generation. Totaling over 8,743 hours,
SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It
covers diverse scales and interaction types, including monadic talking,
listening, and dyadic conversations. Crucially, the dataset is structured along
two key dimensions: interaction type and data quality. First, it is categorized
into four types (dialogue branch, single branch, listening branch and
multi-turn branch) based on the interaction scenario. Second, it is stratified
into a large-scale pre-training subset and a curated, high-quality subset for
Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of
2D virtual human tasks. In addition, we provide an autoregressive (AR)-based
video chat baseline trained on this data, accompanied by a dedicated set of
metrics and test data to serve as a benchmark VidChatBench for future work.
Both the dataset and the corresponding data processing code will be publicly
released. Project page: https://dorniwang.github.io/SpeakerVid-5M/