ChatPaper.aiChatPaper

ANIM-400K: Un conjunto de datos a gran escala para el doblaje automático de extremo a extremo de video

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

January 10, 2024
Autores: Kevin Cai, Chonghua Liu, David M. Chan
cs.AI

Resumen

La abundancia de contenido en Internet, con hasta un 60% publicado en inglés, contrasta marcadamente con la población global, donde solo el 18.8% son hablantes de inglés y apenas el 5.1% lo considera su lengua materna, lo que genera disparidades en el acceso a la información en línea. Lamentablemente, los procesos automatizados para el doblaje de videos —reemplazar la pista de audio de un video con una alternativa traducida— siguen siendo una tarea compleja y desafiante debido a las canalizaciones, que requieren una sincronización precisa de tiempos, movimientos faciales y correspondencia de prosodia. Aunque el doblaje de extremo a extremo ofrece una solución, la escasez de datos sigue obstaculizando el progreso tanto de los métodos basados en canalizaciones como de los de extremo a extremo. En este trabajo, presentamos Anim-400K, un conjunto de datos exhaustivo de más de 425K segmentos de video animados alineados en japonés e inglés que respalda diversas tareas relacionadas con video, incluyendo doblaje automatizado, traducción simultánea, resumen de video guiado y clasificación de género/tema/estilo. Nuestro conjunto de datos está disponible públicamente para fines de investigación en https://github.com/davidmchan/Anim400K.
English
The Internet's wealth of content, with up to 60% published in English, starkly contrasts the global population, where only 18.8% are English speakers, and just 5.1% consider it their native language, leading to disparities in online information access. Unfortunately, automated processes for dubbing of video - replacing the audio track of a video with a translated alternative - remains a complex and challenging task due to pipelines, necessitating precise timing, facial movement synchronization, and prosody matching. While end-to-end dubbing offers a solution, data scarcity continues to impede the progress of both end-to-end and pipeline-based methods. In this work, we introduce Anim-400K, a comprehensive dataset of over 425K aligned animated video segments in Japanese and English supporting various video-related tasks, including automated dubbing, simultaneous translation, guided video summarization, and genre/theme/style classification. Our dataset is made publicly available for research purposes at https://github.com/davidmchan/Anim400K.
PDF120December 15, 2024