ChatPaper.aiChatPaper

TalkVid: Un Conjunto de Datos Diversificado a Gran Escala para la Síntesis de Cabeza Parlante Impulsada por Audio

TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

August 19, 2025
Autores: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang
cs.AI

Resumen

La síntesis de cabezas parlantes impulsada por audio ha logrado un notable fotorealismo; sin embargo, los modelos de última generación (SOTA) presentan una falla crítica: carecen de generalización para abarcar toda la diversidad humana en términos de etnia, idioma y grupos de edad. Argumentamos que esta brecha de generalización es un síntoma directo de las limitaciones en los datos de entrenamiento existentes, los cuales carecen de la escala, calidad y diversidad necesarias. Para abordar este desafío, presentamos TalkVid, un nuevo conjunto de datos a gran escala, de alta calidad y diverso, que contiene 1244 horas de video de 7729 hablantes únicos. TalkVid se ha curado mediante una canalización automatizada y de múltiples etapas, que filtra rigurosamente la estabilidad del movimiento, la calidad estética y el detalle facial, y se valida con juicios humanos para garantizar su fiabilidad. Además, construimos y publicamos TalkVid-Bench, un conjunto de evaluación estratificado de 500 clips meticulosamente equilibrados en ejes demográficos y lingüísticos clave. Nuestros experimentos demuestran que un modelo entrenado con TalkVid supera a los entrenados con conjuntos de datos anteriores, exhibiendo una generalización cruzada superior. De manera crucial, nuestro análisis en TalkVid-Bench revela disparidades de rendimiento entre subgrupos que quedan ocultas por las métricas agregadas tradicionales, subrayando su necesidad para futuras investigaciones. El código y los datos están disponibles en https://github.com/FreedomIntelligence/TalkVid.
English
Audio-driven talking head synthesis has achieved remarkable photorealism, yet state-of-the-art (SOTA) models exhibit a critical failure: they lack generalization to the full spectrum of human diversity in ethnicity, language, and age groups. We argue that this generalization gap is a direct symptom of limitations in existing training data, which lack the necessary scale, quality, and diversity. To address this challenge, we introduce TalkVid, a new large-scale, high-quality, and diverse dataset containing 1244 hours of video from 7729 unique speakers. TalkVid is curated through a principled, multi-stage automated pipeline that rigorously filters for motion stability, aesthetic quality, and facial detail, and is validated against human judgments to ensure its reliability. Furthermore, we construct and release TalkVid-Bench, a stratified evaluation set of 500 clips meticulously balanced across key demographic and linguistic axes. Our experiments demonstrate that a model trained on TalkVid outperforms counterparts trained on previous datasets, exhibiting superior cross-dataset generalization. Crucially, our analysis on TalkVid-Bench reveals performance disparities across subgroups that are obscured by traditional aggregate metrics, underscoring its necessity for future research. Code and data can be found in https://github.com/FreedomIntelligence/TalkVid
PDF173September 1, 2025