SpeakerVid-5M: Een grootschalige dataset van hoge kwaliteit voor audiovisuele dyadische interactieve menselijke generatie

Samenvatting

De snelle ontwikkeling van grootschalige modellen heeft aanzienlijke doorbraken in het domein van digitale mensen versneld. Deze geavanceerde methodologieën bieden hoogwaardige oplossingen voor avatarsturing en -rendering, waardoor de academische wereld zich richt op de volgende grote uitdaging: audio-visuele dyadische interactieve virtuele mensen. Om onderzoek in dit opkomende gebied te faciliteren, presenteren we de SpeakerVid-5M dataset, de eerste grootschalige, hoogwaardige dataset die is ontworpen voor het genereren van audio-visuele dyadische interactieve virtuele mensen. Met in totaal meer dan 8.743 uur bevat SpeakerVid-5M meer dan 5,2 miljoen videoclips van menselijke portretten. Het bestrijkt diverse schalen en interactietypen, waaronder monadisch praten, luisteren en dyadische gesprekken. Cruciaal is dat de dataset is gestructureerd langs twee belangrijke dimensies: interactietype en datakwaliteit. Ten eerste is het gecategoriseerd in vier typen (dialoogtak, enkele tak, luistertak en multi-turn tak) op basis van het interactiescenario. Ten tweede is het gestratificeerd in een grootschalige voorafgaande trainingssubset en een gecureerde, hoogwaardige subset voor Supervised Fine-Tuning (SFT). Deze dubbele structuur accommodeert een breed scala aan 2D virtuele mensentaken. Daarnaast bieden we een autoregressieve (AR)-gebaseerde videochat-baseline die op deze data is getraind, vergezeld van een toegewijd set metriek en testdata om te dienen als een benchmark VidChatBench voor toekomstig werk. Zowel de dataset als de bijbehorende dataverwerkingscode zullen openbaar worden vrijgegeven. Projectpagina: https://dorniwang.github.io/SpeakerVid-5M/

English

The rapid development of large-scale models has catalyzed significant breakthroughs in the digital human domain. These advanced methodologies offer high-fidelity solutions for avatar driving and rendering, leading academia to focus on the next major challenge: audio-visual dyadic interactive virtual human. To facilitate research in this emerging area, we present SpeakerVid-5M dataset, the first large-scale, high-quality dataset designed for audio-visual dyadic interactive virtual human generation. Totaling over 8,743 hours, SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It covers diverse scales and interaction types, including monadic talking, listening, and dyadic conversations. Crucially, the dataset is structured along two key dimensions: interaction type and data quality. First, it is categorized into four types (dialogue branch, single branch, listening branch and multi-turn branch) based on the interaction scenario. Second, it is stratified into a large-scale pre-training subset and a curated, high-quality subset for Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of 2D virtual human tasks. In addition, we provide an autoregressive (AR)-based video chat baseline trained on this data, accompanied by a dedicated set of metrics and test data to serve as a benchmark VidChatBench for future work. Both the dataset and the corresponding data processing code will be publicly released. Project page: https://dorniwang.github.io/SpeakerVid-5M/

SpeakerVid-5M: Een grootschalige dataset van hoge kwaliteit voor audiovisuele dyadische interactieve menselijke generatie

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

Samenvatting

Support