ChatPaper.aiChatPaper

SpeakerVid-5M: 오디오-비주얼 이원적 상호작용 인간 생성을 위한 대규모 고품질 데이터셋

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

July 14, 2025
저자: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
cs.AI

초록

대규모 모델의 급속한 발전은 디지털 휴먼 분야에서 중요한 돌파구를 마련했다. 이러한 첨단 방법론은 아바타 구동 및 렌더링을 위한 고해상도 솔루션을 제공하며, 학계는 다음 주요 도전 과제인 오디오-비주얼 이중 상호작용 가상 휴먼에 주목하고 있다. 이 신흥 분야의 연구를 촉진하기 위해, 우리는 오디오-비주얼 이중 상호작용 가상 휴먼 생성을 위해 설계된 첫 번째 대규모 고품질 데이터셋인 SpeakerVid-5M 데이터셋을 소개한다. 총 8,743시간 이상의 SpeakerVid-5M은 520만 개 이상의 인간 초상 비디오 클립을 포함한다. 이 데이터셋은 단일 대화, 듣기, 이중 대화 등 다양한 규모와 상호작용 유형을 포괄한다. 특히, 이 데이터셋은 상호작용 유형과 데이터 품질이라는 두 가지 핵심 차원을 따라 구조화되었다. 첫째, 상호작용 시나리오에 따라 네 가지 유형(대화 분기, 단일 분기, 듣기 분기 및 다중 턴 분기)으로 분류된다. 둘째, 대규모 사전 학습 서브셋과 지도 미세 조정(SFT)을 위한 선별된 고품질 서브셋으로 계층화된다. 이 이중 구조는 다양한 2D 가상 휴먼 작업을 수용한다. 또한, 이 데이터를 기반으로 훈련된 자기회귀(AR) 기반 비디오 채팅 베이스라인과 함께, 미래 작업을 위한 벤치마크 VidChatBench로 사용할 전용 메트릭 및 테스트 데이터 세트를 제공한다. 데이터셋과 해당 데이터 처리 코드는 공개될 예정이다. 프로젝트 페이지: https://dorniwang.github.io/SpeakerVid-5M/
English
The rapid development of large-scale models has catalyzed significant breakthroughs in the digital human domain. These advanced methodologies offer high-fidelity solutions for avatar driving and rendering, leading academia to focus on the next major challenge: audio-visual dyadic interactive virtual human. To facilitate research in this emerging area, we present SpeakerVid-5M dataset, the first large-scale, high-quality dataset designed for audio-visual dyadic interactive virtual human generation. Totaling over 8,743 hours, SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It covers diverse scales and interaction types, including monadic talking, listening, and dyadic conversations. Crucially, the dataset is structured along two key dimensions: interaction type and data quality. First, it is categorized into four types (dialogue branch, single branch, listening branch and multi-turn branch) based on the interaction scenario. Second, it is stratified into a large-scale pre-training subset and a curated, high-quality subset for Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of 2D virtual human tasks. In addition, we provide an autoregressive (AR)-based video chat baseline trained on this data, accompanied by a dedicated set of metrics and test data to serve as a benchmark VidChatBench for future work. Both the dataset and the corresponding data processing code will be publicly released. Project page: https://dorniwang.github.io/SpeakerVid-5M/
PDF433July 15, 2025