ChatPaper.aiChatPaper

TalkVid: Масштабный разнообразный набор данных для синтеза говорящей головы на основе аудио

TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

August 19, 2025
Авторы: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang
cs.AI

Аннотация

Синтез говорящих голов, управляемый аудио, достиг впечатляющего фотореализма, однако современные модели (SOTA) демонстрируют критический недостаток: они не способны обобщать на всё разнообразие человеческих характеристик, таких как этническая принадлежность, язык и возрастные группы. Мы утверждаем, что этот пробел в обобщении является прямым следствием ограничений существующих обучающих данных, которые недостаточно масштабны, качественны и разнообразны. Для решения этой проблемы мы представляем TalkVid — новый крупномасштабный, высококачественный и разнообразный набор данных, содержащий 1244 часа видео от 7729 уникальных говорящих. TalkVid создан с помощью принципиального, многоэтапного автоматизированного процесса, который строго фильтрует данные по стабильности движения, эстетическому качеству и детализации лица, и проверен на соответствие человеческим суждениям для обеспечения его надежности. Кроме того, мы создаем и публикуем TalkVid-Bench — стратифицированный набор для оценки из 500 клипов, тщательно сбалансированный по ключевым демографическим и лингвистическим параметрам. Наши эксперименты показывают, что модель, обученная на TalkVid, превосходит аналоги, обученные на предыдущих наборах данных, демонстрируя лучшее обобщение на кросс-датасетных данных. Важно, что наш анализ на TalkVid-Bench выявляет различия в производительности между подгруппами, которые скрыты традиционными агрегированными метриками, подчеркивая необходимость его использования в будущих исследованиях. Код и данные доступны по адресу https://github.com/FreedomIntelligence/TalkVid.
English
Audio-driven talking head synthesis has achieved remarkable photorealism, yet state-of-the-art (SOTA) models exhibit a critical failure: they lack generalization to the full spectrum of human diversity in ethnicity, language, and age groups. We argue that this generalization gap is a direct symptom of limitations in existing training data, which lack the necessary scale, quality, and diversity. To address this challenge, we introduce TalkVid, a new large-scale, high-quality, and diverse dataset containing 1244 hours of video from 7729 unique speakers. TalkVid is curated through a principled, multi-stage automated pipeline that rigorously filters for motion stability, aesthetic quality, and facial detail, and is validated against human judgments to ensure its reliability. Furthermore, we construct and release TalkVid-Bench, a stratified evaluation set of 500 clips meticulously balanced across key demographic and linguistic axes. Our experiments demonstrate that a model trained on TalkVid outperforms counterparts trained on previous datasets, exhibiting superior cross-dataset generalization. Crucially, our analysis on TalkVid-Bench reveals performance disparities across subgroups that are obscured by traditional aggregate metrics, underscoring its necessity for future research. Code and data can be found in https://github.com/FreedomIntelligence/TalkVid
PDF173September 1, 2025