ChatPaper.aiChatPaper

ANIM-400K : Un jeu de données à grande échelle pour le doublage automatisé de vidéos de bout en bout

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

January 10, 2024
Auteurs: Kevin Cai, Chonghua Liu, David M. Chan
cs.AI

Résumé

La richesse du contenu sur Internet, dont jusqu'à 60 % est publié en anglais, contraste fortement avec la population mondiale, où seulement 18,8 % des individus parlent anglais, et à peine 5,1 % le considèrent comme leur langue maternelle, ce qui entraîne des disparités dans l'accès à l'information en ligne. Malheureusement, les processus automatisés de doublage vidéo - consistant à remplacer la piste audio d'une vidéo par une version traduite - restent une tâche complexe et difficile en raison des pipelines nécessitant une synchronisation temporelle précise, une harmonisation des mouvements faciaux et une correspondance prosodique. Bien que le doublage de bout en bout offre une solution, la pénurie de données continue de freiner les progrès des méthodes basées sur des pipelines et de bout en bout. Dans ce travail, nous présentons Anim-400K, un ensemble de données complet de plus de 425 000 segments vidéo animés alignés en japonais et en anglais, soutenant diverses tâches liées à la vidéo, notamment le doublage automatisé, la traduction simultanée, le résumé vidéo guidé et la classification par genre/thème/style. Notre ensemble de données est mis à disposition publique à des fins de recherche à l'adresse suivante : https://github.com/davidmchan/Anim400K.
English
The Internet's wealth of content, with up to 60% published in English, starkly contrasts the global population, where only 18.8% are English speakers, and just 5.1% consider it their native language, leading to disparities in online information access. Unfortunately, automated processes for dubbing of video - replacing the audio track of a video with a translated alternative - remains a complex and challenging task due to pipelines, necessitating precise timing, facial movement synchronization, and prosody matching. While end-to-end dubbing offers a solution, data scarcity continues to impede the progress of both end-to-end and pipeline-based methods. In this work, we introduce Anim-400K, a comprehensive dataset of over 425K aligned animated video segments in Japanese and English supporting various video-related tasks, including automated dubbing, simultaneous translation, guided video summarization, and genre/theme/style classification. Our dataset is made publicly available for research purposes at https://github.com/davidmchan/Anim400K.
PDF120December 15, 2024