ANIM-400K: Um Conjunto de Dados em Grande Escala para Dublagem Automatizada de Vídeo de Ponta a Ponta
ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video
January 10, 2024
Autores: Kevin Cai, Chonghua Liu, David M. Chan
cs.AI
Resumo
A riqueza de conteúdo da Internet, com até 60% publicado em inglês, contrasta fortemente com a população global, onde apenas 18,8% são falantes de inglês, e apenas 5,1% o consideram sua língua nativa, resultando em disparidades no acesso à informação online. Infelizmente, os processos automatizados de dublagem de vídeo - substituição da trilha sonora de um vídeo por uma alternativa traduzida - continuam sendo uma tarefa complexa e desafiadora devido aos pipelines, que exigem sincronização precisa de tempo, movimentos faciais e correspondência de prosódia. Embora a dublagem de ponta a ponta ofereça uma solução, a escassez de dados continua a impedir o progresso tanto dos métodos de ponta a ponta quanto dos baseados em pipelines. Neste trabalho, apresentamos o Anim-400K, um conjunto de dados abrangente de mais de 425 mil segmentos de vídeos animados alinhados em japonês e inglês, que suporta diversas tarefas relacionadas a vídeo, incluindo dublagem automatizada, tradução simultânea, sumarização guiada de vídeo e classificação de gênero/tema/estilo. Nosso conjunto de dados está disponível publicamente para fins de pesquisa em https://github.com/davidmchan/Anim400K.
English
The Internet's wealth of content, with up to 60% published in English,
starkly contrasts the global population, where only 18.8% are English speakers,
and just 5.1% consider it their native language, leading to disparities in
online information access. Unfortunately, automated processes for dubbing of
video - replacing the audio track of a video with a translated alternative -
remains a complex and challenging task due to pipelines, necessitating precise
timing, facial movement synchronization, and prosody matching. While end-to-end
dubbing offers a solution, data scarcity continues to impede the progress of
both end-to-end and pipeline-based methods. In this work, we introduce
Anim-400K, a comprehensive dataset of over 425K aligned animated video segments
in Japanese and English supporting various video-related tasks, including
automated dubbing, simultaneous translation, guided video summarization, and
genre/theme/style classification. Our dataset is made publicly available for
research purposes at https://github.com/davidmchan/Anim400K.