ChatPaper.aiChatPaper

TalkVid: Ein umfangreicher und diversifizierter Datensatz für die audio-gesteuerte Synthese von sprechenden Köpfen

TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

August 19, 2025
papers.authors: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang
cs.AI

papers.abstract

Die audiogesteuerte Synthese von sprechenden Köpfen hat bemerkenswerte Fotorealismen erreicht, doch zeigen die State-of-the-Art (SOTA)-Modelle einen kritischen Mangel: Es fehlt ihnen an Generalisierungsfähigkeit für die gesamte Bandbreite menschlicher Vielfalt in Bezug auf Ethnizität, Sprache und Altersgruppen. Wir argumentieren, dass diese Generalisierungslücke ein direktes Symptom der Einschränkungen in den vorhandenen Trainingsdaten ist, denen es an notwendigem Umfang, Qualität und Vielfalt mangelt. Um diese Herausforderung zu bewältigen, stellen wir TalkVid vor, einen neuen, groß angelegten, hochwertigen und vielfältigen Datensatz, der 1244 Stunden Video von 7729 einzigartigen Sprechern enthält. TalkVid wird durch einen prinzipiellen, mehrstufigen automatisierten Pipeline-Prozess kuratiert, der streng auf Bewegungsstabilität, ästhetische Qualität und Gesichtsdetails filtert und durch menschliche Beurteilungen validiert wird, um seine Zuverlässigkeit sicherzustellen. Darüber hinaus konstruieren und veröffentlichen wir TalkVid-Bench, ein geschichtetes Evaluationsset von 500 Clips, das sorgfältig über wichtige demografische und linguistische Achsen ausbalanciert ist. Unsere Experimente zeigen, dass ein auf TalkVid trainiertes Modell Modelle, die auf früheren Datensätzen trainiert wurden, übertrifft und eine überlegene Generalisierung über Datensätze hinweg aufweist. Entscheidend ist, dass unsere Analyse auf TalkVid-Bench Leistungsunterschiede zwischen Untergruppen aufdeckt, die durch traditionelle aggregierte Metriken verdeckt werden, und damit ihre Notwendigkeit für zukünftige Forschung unterstreicht. Code und Daten sind unter https://github.com/FreedomIntelligence/TalkVid verfügbar.
English
Audio-driven talking head synthesis has achieved remarkable photorealism, yet state-of-the-art (SOTA) models exhibit a critical failure: they lack generalization to the full spectrum of human diversity in ethnicity, language, and age groups. We argue that this generalization gap is a direct symptom of limitations in existing training data, which lack the necessary scale, quality, and diversity. To address this challenge, we introduce TalkVid, a new large-scale, high-quality, and diverse dataset containing 1244 hours of video from 7729 unique speakers. TalkVid is curated through a principled, multi-stage automated pipeline that rigorously filters for motion stability, aesthetic quality, and facial detail, and is validated against human judgments to ensure its reliability. Furthermore, we construct and release TalkVid-Bench, a stratified evaluation set of 500 clips meticulously balanced across key demographic and linguistic axes. Our experiments demonstrate that a model trained on TalkVid outperforms counterparts trained on previous datasets, exhibiting superior cross-dataset generalization. Crucially, our analysis on TalkVid-Bench reveals performance disparities across subgroups that are obscured by traditional aggregate metrics, underscoring its necessity for future research. Code and data can be found in https://github.com/FreedomIntelligence/TalkVid
PDF173September 1, 2025