ChatPaper.aiChatPaper

SpeakerVid-5M: Um Conjunto de Dados em Grande Escala e Alta Qualidade para Geração de Interações Diádicas Humanas Áudio-Visuais

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

July 14, 2025
Autores: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
cs.AI

Resumo

O rápido desenvolvimento de modelos em grande escala catalisou avanços significativos no domínio dos humanos digitais. Essas metodologias avançadas oferecem soluções de alta fidelidade para a condução e renderização de avatares, levando a academia a focar no próximo grande desafio: o humano virtual interativo audiovisual diádico. Para facilitar a pesquisa nessa área emergente, apresentamos o conjunto de dados SpeakerVid-5M, o primeiro conjunto de dados em larga escala e de alta qualidade projetado para a geração de humanos virtuais interativos audiovisuais diádicos. Totalizando mais de 8.743 horas, o SpeakerVid-5M contém mais de 5,2 milhões de clipes de vídeo de retratos humanos. Ele abrange diversas escalas e tipos de interação, incluindo fala monádica, escuta e conversas diádicas. Crucialmente, o conjunto de dados é estruturado em duas dimensões principais: tipo de interação e qualidade dos dados. Primeiro, ele é categorizado em quatro tipos (ramo de diálogo, ramo único, ramo de escuta e ramo de múltiplas interações) com base no cenário de interação. Segundo, ele é estratificado em um subconjunto de pré-treinamento em larga escala e um subconjunto curado e de alta qualidade para Ajuste Fino Supervisionado (SFT). Essa estrutura dupla acomoda uma ampla gama de tarefas de humanos virtuais 2D. Além disso, fornecemos uma linha de base de chat de vídeo baseada em autoregressão (AR) treinada nesses dados, acompanhada por um conjunto dedicado de métricas e dados de teste para servir como um benchmark VidChatBench para trabalhos futuros. Tanto o conjunto de dados quanto o código de processamento de dados correspondente serão liberados publicamente. Página do projeto: https://dorniwang.github.io/SpeakerVid-5M/
English
The rapid development of large-scale models has catalyzed significant breakthroughs in the digital human domain. These advanced methodologies offer high-fidelity solutions for avatar driving and rendering, leading academia to focus on the next major challenge: audio-visual dyadic interactive virtual human. To facilitate research in this emerging area, we present SpeakerVid-5M dataset, the first large-scale, high-quality dataset designed for audio-visual dyadic interactive virtual human generation. Totaling over 8,743 hours, SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It covers diverse scales and interaction types, including monadic talking, listening, and dyadic conversations. Crucially, the dataset is structured along two key dimensions: interaction type and data quality. First, it is categorized into four types (dialogue branch, single branch, listening branch and multi-turn branch) based on the interaction scenario. Second, it is stratified into a large-scale pre-training subset and a curated, high-quality subset for Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of 2D virtual human tasks. In addition, we provide an autoregressive (AR)-based video chat baseline trained on this data, accompanied by a dedicated set of metrics and test data to serve as a benchmark VidChatBench for future work. Both the dataset and the corresponding data processing code will be publicly released. Project page: https://dorniwang.github.io/SpeakerVid-5M/
PDF483July 15, 2025