TalkVid: Un Dataset Ampio e Diversificato per la Sintesi di Teste Parlanti Guidata dall'Audio
TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
August 19, 2025
Autori: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang
cs.AI
Abstract
La sintesi di volti parlanti guidata da audio ha raggiunto un notevole fotorealismo, tuttavia i modelli all'avanguardia (SOTA) presentano un fallimento critico: mancano di generalizzazione rispetto all'intero spettro della diversità umana in termini di etnia, lingua e gruppi di età. Sosteniamo che questo divario di generalizzazione sia un sintomo diretto delle limitazioni nei dati di addestramento esistenti, che mancano della scala, qualità e diversità necessarie. Per affrontare questa sfida, introduciamo TalkVid, un nuovo dataset su larga scala, di alta qualità e diversificato, contenente 1244 ore di video provenienti da 7729 parlanti unici. TalkVid è curato attraverso una pipeline automatizzata e multi-fase che filtra rigorosamente per stabilità del movimento, qualità estetica e dettaglio facciale, ed è validato rispetto a giudizi umani per garantirne l'affidabilità. Inoltre, costruiamo e rilasciamo TalkVid-Bench, un set di valutazione stratificato di 500 clip bilanciato meticolosamente lungo assi demografici e linguistici chiave. I nostri esperimenti dimostrano che un modello addestrato su TalkVid supera le controparti addestrate su dataset precedenti, mostrando una generalizzazione cross-dataset superiore. Fondamentalmente, la nostra analisi su TalkVid-Bench rivela disparità di prestazioni tra sottogruppi che sono oscurate dalle metriche aggregate tradizionali, sottolineando la sua necessità per la ricerca futura. Codice e dati sono disponibili su https://github.com/FreedomIntelligence/TalkVid.
English
Audio-driven talking head synthesis has achieved remarkable photorealism, yet
state-of-the-art (SOTA) models exhibit a critical failure: they lack
generalization to the full spectrum of human diversity in ethnicity, language,
and age groups. We argue that this generalization gap is a direct symptom of
limitations in existing training data, which lack the necessary scale, quality,
and diversity. To address this challenge, we introduce TalkVid, a new
large-scale, high-quality, and diverse dataset containing 1244 hours of video
from 7729 unique speakers. TalkVid is curated through a principled, multi-stage
automated pipeline that rigorously filters for motion stability, aesthetic
quality, and facial detail, and is validated against human judgments to ensure
its reliability. Furthermore, we construct and release TalkVid-Bench, a
stratified evaluation set of 500 clips meticulously balanced across key
demographic and linguistic axes. Our experiments demonstrate that a model
trained on TalkVid outperforms counterparts trained on previous datasets,
exhibiting superior cross-dataset generalization. Crucially, our analysis on
TalkVid-Bench reveals performance disparities across subgroups that are
obscured by traditional aggregate metrics, underscoring its necessity for
future research. Code and data can be found in
https://github.com/FreedomIntelligence/TalkVid