TalkVid: Um Conjunto de Dados Diversificado em Grande Escala para Síntese de Cabeça Falante Dirigida por Áudio
TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
August 19, 2025
Autores: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang
cs.AI
Resumo
A síntese de cabeças falantes impulsionada por áudio alcançou um realismo fotográfico notável, porém os modelos state-of-the-art (SOTA) exibem uma falha crítica: eles carecem de generalização para todo o espectro da diversidade humana em termos de etnia, idioma e faixas etárias. Argumentamos que essa lacuna de generalização é um sintoma direto das limitações nos dados de treinamento existentes, que não possuem a escala, qualidade e diversidade necessárias. Para enfrentar esse desafio, introduzimos o TalkVid, um novo conjunto de dados em larga escala, de alta qualidade e diversificado, contendo 1244 horas de vídeo de 7729 falantes únicos. O TalkVid é curado por meio de um pipeline automatizado e multiestágio, que filtra rigorosamente a estabilidade de movimento, a qualidade estética e os detalhes faciais, e é validado por julgamentos humanos para garantir sua confiabilidade. Além disso, construímos e disponibilizamos o TalkVid-Bench, um conjunto de avaliação estratificado de 500 clipes meticulosamente balanceados em eixos demográficos e linguísticos-chave. Nossos experimentos demonstram que um modelo treinado no TalkVid supera os modelos treinados em conjuntos de dados anteriores, exibindo uma generalização cruzada superior. Crucialmente, nossa análise no TalkVid-Bench revela disparidades de desempenho entre subgrupos que são obscurecidas pelas métricas agregadas tradicionais, destacando sua necessidade para pesquisas futuras. O código e os dados podem ser encontrados em https://github.com/FreedomIntelligence/TalkVid.
English
Audio-driven talking head synthesis has achieved remarkable photorealism, yet
state-of-the-art (SOTA) models exhibit a critical failure: they lack
generalization to the full spectrum of human diversity in ethnicity, language,
and age groups. We argue that this generalization gap is a direct symptom of
limitations in existing training data, which lack the necessary scale, quality,
and diversity. To address this challenge, we introduce TalkVid, a new
large-scale, high-quality, and diverse dataset containing 1244 hours of video
from 7729 unique speakers. TalkVid is curated through a principled, multi-stage
automated pipeline that rigorously filters for motion stability, aesthetic
quality, and facial detail, and is validated against human judgments to ensure
its reliability. Furthermore, we construct and release TalkVid-Bench, a
stratified evaluation set of 500 clips meticulously balanced across key
demographic and linguistic axes. Our experiments demonstrate that a model
trained on TalkVid outperforms counterparts trained on previous datasets,
exhibiting superior cross-dataset generalization. Crucially, our analysis on
TalkVid-Bench reveals performance disparities across subgroups that are
obscured by traditional aggregate metrics, underscoring its necessity for
future research. Code and data can be found in
https://github.com/FreedomIntelligence/TalkVid