SpeakerVid-5M: Масштабный высококачественный набор данных для аудиовизуальной генерации диалогового взаимодействия людей
SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation
July 14, 2025
Авторы: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
cs.AI
Аннотация
Быстрое развитие крупномасштабных моделей стимулировало значительные прорывы в области цифровых людей. Эти передовые методологии предлагают решения высокой точности для управления аватарами и их визуализации, что побуждает научное сообщество сосредоточиться на следующей важной задаче: создании аудиовизуальных диалоговых интерактивных виртуальных людей. Для содействия исследованиям в этой новой области мы представляем набор данных SpeakerVid-5M — первый крупномасштабный высококачественный набор данных, предназначенный для генерации аудиовизуальных диалоговых интерактивных виртуальных людей. Общий объем данных превышает 8 743 часа, включая более 5,2 миллиона видеоклипов с портретами людей. Он охватывает различные масштабы и типы взаимодействий, включая монологические высказывания, слушание и диалоги. Ключевым образом набор данных структурирован по двум основным измерениям: тип взаимодействия и качество данных. Во-первых, он классифицируется на четыре типа (ветвь диалога, одиночная ветвь, ветвь слушания и ветвь многоходового взаимодействия) в зависимости от сценария взаимодействия. Во-вторых, он разделен на крупномасштабный поднабор для предварительного обучения и тщательно отобранный высококачественный поднабор для контролируемой тонкой настройки (SFT). Эта двойная структура позволяет охватить широкий спектр задач, связанных с 2D-виртуальными людьми. Кроме того, мы предоставляем базовую модель для видеочата на основе авторегрессии (AR), обученную на этих данных, а также набор метрик и тестовых данных, которые служат эталоном VidChatBench для будущих исследований. Как набор данных, так и соответствующий код для обработки данных будут опубликованы в открытом доступе. Страница проекта: https://dorniwang.github.io/SpeakerVid-5M/
English
The rapid development of large-scale models has catalyzed significant
breakthroughs in the digital human domain. These advanced methodologies offer
high-fidelity solutions for avatar driving and rendering, leading academia to
focus on the next major challenge: audio-visual dyadic interactive virtual
human. To facilitate research in this emerging area, we present SpeakerVid-5M
dataset, the first large-scale, high-quality dataset designed for audio-visual
dyadic interactive virtual human generation. Totaling over 8,743 hours,
SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It
covers diverse scales and interaction types, including monadic talking,
listening, and dyadic conversations. Crucially, the dataset is structured along
two key dimensions: interaction type and data quality. First, it is categorized
into four types (dialogue branch, single branch, listening branch and
multi-turn branch) based on the interaction scenario. Second, it is stratified
into a large-scale pre-training subset and a curated, high-quality subset for
Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of
2D virtual human tasks. In addition, we provide an autoregressive (AR)-based
video chat baseline trained on this data, accompanied by a dedicated set of
metrics and test data to serve as a benchmark VidChatBench for future work.
Both the dataset and the corresponding data processing code will be publicly
released. Project page: https://dorniwang.github.io/SpeakerVid-5M/