TalkVid: Een Grote, Gediversifieerde Dataset voor Audio-Gestuurde Talking Head Synthese
TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
August 19, 2025
Auteurs: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang
cs.AI
Samenvatting
Audio-gestuurde talking head-synthese heeft opmerkelijke fotorealistische resultaten bereikt, maar de huidige state-of-the-art (SOTA) modellen vertonen een kritiek falen: ze missen generalisatie naar het volledige spectrum van menselijke diversiteit in etniciteit, taal en leeftijdsgroepen. Wij stellen dat deze generalisatiekloof een direct gevolg is van beperkingen in bestaande trainingsdata, die niet over de nodige schaal, kwaliteit en diversiteit beschikken. Om deze uitdaging aan te pakken, introduceren we TalkVid, een nieuwe grootschalige, hoogwaardige en diverse dataset met 1244 uur aan video van 7729 unieke sprekers. TalkVid is samengesteld via een principieel, meerfasig geautomatiseerd proces dat rigoureus filtert op bewegingsstabiliteit, esthetische kwaliteit en gezichtsdetails, en wordt gevalideerd tegen menselijke beoordelingen om de betrouwbaarheid te waarborgen. Bovendien construeren en publiceren we TalkVid-Bench, een gestratificeerde evaluatieset van 500 clips die zorgvuldig zijn gebalanceerd over belangrijke demografische en linguïstische assen. Onze experimenten tonen aan dat een model getraind op TalkVid beter presteert dan modellen getraind op eerdere datasets, met superieure cross-dataset generalisatie. Cruciaal is dat onze analyse op TalkVid-Bench prestatieverschillen tussen subgroepen onthult die verborgen blijven door traditionele aggregatiemetrics, wat het belang ervan voor toekomstig onderzoek onderstreept. Code en data zijn te vinden op https://github.com/FreedomIntelligence/TalkVid.
English
Audio-driven talking head synthesis has achieved remarkable photorealism, yet
state-of-the-art (SOTA) models exhibit a critical failure: they lack
generalization to the full spectrum of human diversity in ethnicity, language,
and age groups. We argue that this generalization gap is a direct symptom of
limitations in existing training data, which lack the necessary scale, quality,
and diversity. To address this challenge, we introduce TalkVid, a new
large-scale, high-quality, and diverse dataset containing 1244 hours of video
from 7729 unique speakers. TalkVid is curated through a principled, multi-stage
automated pipeline that rigorously filters for motion stability, aesthetic
quality, and facial detail, and is validated against human judgments to ensure
its reliability. Furthermore, we construct and release TalkVid-Bench, a
stratified evaluation set of 500 clips meticulously balanced across key
demographic and linguistic axes. Our experiments demonstrate that a model
trained on TalkVid outperforms counterparts trained on previous datasets,
exhibiting superior cross-dataset generalization. Crucially, our analysis on
TalkVid-Bench reveals performance disparities across subgroups that are
obscured by traditional aggregate metrics, underscoring its necessity for
future research. Code and data can be found in
https://github.com/FreedomIntelligence/TalkVid