ANIM-400K: Un dataset su larga scala per il doppiaggio automatico end-to-end di video
ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video
January 10, 2024
Autori: Kevin Cai, Chonghua Liu, David M. Chan
cs.AI
Abstract
La ricchezza di contenuti su Internet, con fino al 60% pubblicato in inglese, contrasta nettamente con la popolazione globale, dove solo il 18,8% parla inglese e appena il 5,1% lo considera la propria lingua madre, portando a disparità nell'accesso alle informazioni online. Sfortunatamente, i processi automatizzati per il doppiaggio video - sostituendo la traccia audio di un video con una alternativa tradotta - rimangono un compito complesso e impegnativo a causa delle pipeline, che richiedono una tempistica precisa, la sincronizzazione dei movimenti facciali e la corrispondenza della prosodia. Sebbene il doppiaggio end-to-end offra una soluzione, la scarsità di dati continua a ostacolare il progresso sia dei metodi end-to-end che di quelli basati su pipeline. In questo lavoro, presentiamo Anim-400K, un dataset completo di oltre 425K segmenti video animati allineati in giapponese e inglese che supporta varie attività legate ai video, tra cui il doppiaggio automatizzato, la traduzione simultanea, la sintesi video guidata e la classificazione per genere/tema/stile. Il nostro dataset è reso pubblicamente disponibile per scopi di ricerca all'indirizzo https://github.com/davidmchan/Anim400K.
English
The Internet's wealth of content, with up to 60% published in English,
starkly contrasts the global population, where only 18.8% are English speakers,
and just 5.1% consider it their native language, leading to disparities in
online information access. Unfortunately, automated processes for dubbing of
video - replacing the audio track of a video with a translated alternative -
remains a complex and challenging task due to pipelines, necessitating precise
timing, facial movement synchronization, and prosody matching. While end-to-end
dubbing offers a solution, data scarcity continues to impede the progress of
both end-to-end and pipeline-based methods. In this work, we introduce
Anim-400K, a comprehensive dataset of over 425K aligned animated video segments
in Japanese and English supporting various video-related tasks, including
automated dubbing, simultaneous translation, guided video summarization, and
genre/theme/style classification. Our dataset is made publicly available for
research purposes at https://github.com/davidmchan/Anim400K.