ANIM-400K: Масштабный набор данных для автоматизированного сквозного дублирования видео
ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video
January 10, 2024
Авторы: Kevin Cai, Chonghua Liu, David M. Chan
cs.AI
Аннотация
Обилие контента в Интернете, где до 60% публикаций представлено на английском языке, резко контрастирует с глобальной популяцией, где только 18,8% людей говорят на английском, и лишь 5,1% считают его своим родным языком, что приводит к неравенству в доступе к онлайн-информации. К сожалению, автоматизация процессов дубляжа видео — замены аудиодорожки видео на переведенную альтернативу — остается сложной и трудоемкой задачей из-за необходимости точной синхронизации временных рамок, движений лица и соответствия интонации. Хотя сквозной дубляж предлагает решение, нехватка данных продолжает сдерживать прогресс как сквозных, так и поэтапных методов. В данной работе мы представляем Anim-400K — обширный набор данных, содержащий более 425 тысяч синхронизированных сегментов анимационных видео на японском и английском языках, который поддерживает различные задачи, связанные с видео, включая автоматический дубляж, синхронный перевод, управляемое видеорезюмирование и классификацию по жанру, теме и стилю. Наш набор данных доступен для исследовательских целей по адресу https://github.com/davidmchan/Anim400K.
English
The Internet's wealth of content, with up to 60% published in English,
starkly contrasts the global population, where only 18.8% are English speakers,
and just 5.1% consider it their native language, leading to disparities in
online information access. Unfortunately, automated processes for dubbing of
video - replacing the audio track of a video with a translated alternative -
remains a complex and challenging task due to pipelines, necessitating precise
timing, facial movement synchronization, and prosody matching. While end-to-end
dubbing offers a solution, data scarcity continues to impede the progress of
both end-to-end and pipeline-based methods. In this work, we introduce
Anim-400K, a comprehensive dataset of over 425K aligned animated video segments
in Japanese and English supporting various video-related tasks, including
automated dubbing, simultaneous translation, guided video summarization, and
genre/theme/style classification. Our dataset is made publicly available for
research purposes at https://github.com/davidmchan/Anim400K.