SpeakerVid-5M : Un ensemble de données à grande échelle et de haute qualité pour la génération interactive dyadique audio-visuelle humaine
SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation
July 14, 2025
papers.authors: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
cs.AI
papers.abstract
Le développement rapide des modèles à grande échelle a catalysé des avancées significatives dans le domaine des humains numériques. Ces méthodologies avancées offrent des solutions haute fidélité pour le pilotage et le rendu d'avatars, incitant le monde académique à se concentrer sur le prochain défi majeur : les humains virtuels interactifs audio-visuels dyadiques. Pour faciliter la recherche dans ce domaine émergent, nous présentons le jeu de données SpeakerVid-5M, le premier ensemble de données à grande échelle et de haute qualité conçu pour la génération d'humains virtuels interactifs audio-visuels dyadiques. Totalisant plus de 8 743 heures, SpeakerVid-5M contient plus de 5,2 millions de clips vidéo de portraits humains. Il couvre une diversité d'échelles et de types d'interaction, incluant des monologues, des écoutes et des conversations dyadiques. De manière cruciale, le jeu de données est structuré selon deux dimensions clés : le type d'interaction et la qualité des données. Premièrement, il est catégorisé en quatre types (branche dialogue, branche unique, branche écoute et branche multi-tours) en fonction du scénario d'interaction. Deuxièmement, il est stratifié en un sous-ensemble de pré-entraînement à grande échelle et un sous-ensemble soigneusement sélectionné de haute qualité pour le réglage fin supervisé (SFT). Cette structure duale s'adapte à une large gamme de tâches d'humains virtuels 2D. En outre, nous fournissons une base de référence pour un chat vidéo basé sur un modèle autorégressif (AR) entraîné sur ces données, accompagnée d'un ensemble dédié de métriques et de données de test pour servir de référence VidChatBench pour les travaux futurs. Le jeu de données ainsi que le code de traitement des données correspondant seront rendus publics. Page du projet : https://dorniwang.github.io/SpeakerVid-5M/
English
The rapid development of large-scale models has catalyzed significant
breakthroughs in the digital human domain. These advanced methodologies offer
high-fidelity solutions for avatar driving and rendering, leading academia to
focus on the next major challenge: audio-visual dyadic interactive virtual
human. To facilitate research in this emerging area, we present SpeakerVid-5M
dataset, the first large-scale, high-quality dataset designed for audio-visual
dyadic interactive virtual human generation. Totaling over 8,743 hours,
SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It
covers diverse scales and interaction types, including monadic talking,
listening, and dyadic conversations. Crucially, the dataset is structured along
two key dimensions: interaction type and data quality. First, it is categorized
into four types (dialogue branch, single branch, listening branch and
multi-turn branch) based on the interaction scenario. Second, it is stratified
into a large-scale pre-training subset and a curated, high-quality subset for
Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of
2D virtual human tasks. In addition, we provide an autoregressive (AR)-based
video chat baseline trained on this data, accompanied by a dedicated set of
metrics and test data to serve as a benchmark VidChatBench for future work.
Both the dataset and the corresponding data processing code will be publicly
released. Project page: https://dorniwang.github.io/SpeakerVid-5M/