SpeakerVid-5M: Un conjunto de datos a gran escala y de alta calidad para la generación audiovisual interactiva diádica humana.
SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation
July 14, 2025
Autores: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
cs.AI
Resumen
El rápido desarrollo de modelos a gran escala ha catalizado avances significativos en el dominio de los humanos digitales. Estas metodologías avanzadas ofrecen soluciones de alta fidelidad para la animación y renderizado de avatares, lo que ha llevado a la academia a enfocarse en el próximo gran desafío: el humano virtual interactivo audiovisual diádico. Para facilitar la investigación en esta área emergente, presentamos el conjunto de datos SpeakerVid-5M, el primer conjunto de datos a gran escala y de alta calidad diseñado para la generación de humanos virtuales interactivos audiovisuales diádicos. Con un total de más de 8,743 horas, SpeakerVid-5M contiene más de 5.2 millones de clips de video de retratos humanos. Abarca diversas escalas y tipos de interacción, incluyendo monólogos, escucha activa y conversaciones diádicas. Es crucial destacar que el conjunto de datos está estructurado en dos dimensiones clave: tipo de interacción y calidad de los datos. En primer lugar, se categoriza en cuatro tipos (rama de diálogo, rama única, rama de escucha y rama de múltiples turnos) según el escenario de interacción. En segundo lugar, se estratifica en un subconjunto de preentrenamiento a gran escala y un subconjunto curado de alta calidad para el Ajuste Fino Supervisado (SFT). Esta estructura dual permite abordar una amplia gama de tareas relacionadas con humanos virtuales 2D. Además, proporcionamos una línea base de chat de video basada en autoregresión (AR) entrenada con estos datos, acompañada de un conjunto dedicado de métricas y datos de prueba que sirven como referencia VidChatBench para trabajos futuros. Tanto el conjunto de datos como el código correspondiente de procesamiento de datos serán publicados públicamente. Página del proyecto: https://dorniwang.github.io/SpeakerVid-5M/
English
The rapid development of large-scale models has catalyzed significant
breakthroughs in the digital human domain. These advanced methodologies offer
high-fidelity solutions for avatar driving and rendering, leading academia to
focus on the next major challenge: audio-visual dyadic interactive virtual
human. To facilitate research in this emerging area, we present SpeakerVid-5M
dataset, the first large-scale, high-quality dataset designed for audio-visual
dyadic interactive virtual human generation. Totaling over 8,743 hours,
SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It
covers diverse scales and interaction types, including monadic talking,
listening, and dyadic conversations. Crucially, the dataset is structured along
two key dimensions: interaction type and data quality. First, it is categorized
into four types (dialogue branch, single branch, listening branch and
multi-turn branch) based on the interaction scenario. Second, it is stratified
into a large-scale pre-training subset and a curated, high-quality subset for
Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of
2D virtual human tasks. In addition, we provide an autoregressive (AR)-based
video chat baseline trained on this data, accompanied by a dedicated set of
metrics and test data to serve as a benchmark VidChatBench for future work.
Both the dataset and the corresponding data processing code will be publicly
released. Project page: https://dorniwang.github.io/SpeakerVid-5M/