TalkVid : Un ensemble de données diversifié à grande échelle pour la synthèse de têtes parlantes pilotée par l'audio
TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
August 19, 2025
papers.authors: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang
cs.AI
papers.abstract
La synthèse de têtes parlantes pilotée par l'audio a atteint un photoréalisme remarquable, mais les modèles de pointe (SOTA) présentent un échec critique : ils manquent de généralisation à l'ensemble du spectre de la diversité humaine en termes d'ethnicité, de langue et de groupes d'âge. Nous soutenons que cet écart de généralisation est un symptôme direct des limitations des données d'entraînement existantes, qui manquent d'échelle, de qualité et de diversité nécessaires. Pour relever ce défi, nous introduisons TalkVid, un nouveau jeu de données à grande échelle, de haute qualité et diversifié, contenant 1244 heures de vidéo provenant de 7729 locuteurs uniques. TalkVid est élaboré grâce à un pipeline automatisé en plusieurs étapes, qui filtre rigoureusement la stabilité des mouvements, la qualité esthétique et les détails faciaux, et est validé par des jugements humains pour garantir sa fiabilité. De plus, nous construisons et publions TalkVid-Bench, un ensemble d'évaluation stratifié de 500 clips soigneusement équilibrés selon des axes démographiques et linguistiques clés. Nos expériences démontrent qu'un modèle entraîné sur TalkVid surpasse les modèles entraînés sur des jeux de données précédents, en affichant une généralisation inter-jeux de données supérieure. De manière cruciale, notre analyse sur TalkVid-Bench révèle des disparités de performance entre sous-groupes qui sont masquées par les métriques agrégées traditionnelles, soulignant ainsi sa nécessité pour les recherches futures. Le code et les données sont disponibles sur https://github.com/FreedomIntelligence/TalkVid.
English
Audio-driven talking head synthesis has achieved remarkable photorealism, yet
state-of-the-art (SOTA) models exhibit a critical failure: they lack
generalization to the full spectrum of human diversity in ethnicity, language,
and age groups. We argue that this generalization gap is a direct symptom of
limitations in existing training data, which lack the necessary scale, quality,
and diversity. To address this challenge, we introduce TalkVid, a new
large-scale, high-quality, and diverse dataset containing 1244 hours of video
from 7729 unique speakers. TalkVid is curated through a principled, multi-stage
automated pipeline that rigorously filters for motion stability, aesthetic
quality, and facial detail, and is validated against human judgments to ensure
its reliability. Furthermore, we construct and release TalkVid-Bench, a
stratified evaluation set of 500 clips meticulously balanced across key
demographic and linguistic axes. Our experiments demonstrate that a model
trained on TalkVid outperforms counterparts trained on previous datasets,
exhibiting superior cross-dataset generalization. Crucially, our analysis on
TalkVid-Bench reveals performance disparities across subgroups that are
obscured by traditional aggregate metrics, underscoring its necessity for
future research. Code and data can be found in
https://github.com/FreedomIntelligence/TalkVid