ANIM-400K:ビデオの自動エンドツーエンドダビングのための大規模データセット
ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video
January 10, 2024
著者: Kevin Cai, Chonghua Liu, David M. Chan
cs.AI
要旨
インターネット上のコンテンツのうち最大60%が英語で公開されている一方で、世界人口のうち英語話者は18.8%に過ぎず、母語とする人はわずか5.1%に留まっています。この乖離は、オンライン情報へのアクセスにおける格差を生んでいます。残念ながら、ビデオのダビング(ビデオの音声トラックを翻訳版に置き換えること)を自動化するプロセスは、依然として複雑で困難な課題です。これは、正確なタイミング、顔の動きの同期、およびプロソディのマッチングを必要とするパイプラインによるものです。エンドツーエンドのダビングは解決策を提供しますが、データ不足がエンドツーエンドおよびパイプラインベースの手法の進展を妨げています。本研究では、自動ダビング、同時通訳、ガイド付きビデオ要約、ジャンル/テーマ/スタイル分類など、さまざまなビデオ関連タスクをサポートする、日本語と英語の425,000以上のアライメントされたアニメーションビデオセグメントからなる包括的なデータセット「Anim-400K」を紹介します。このデータセットは、研究目的でhttps://github.com/davidmchan/Anim400Kに公開されています。
English
The Internet's wealth of content, with up to 60% published in English,
starkly contrasts the global population, where only 18.8% are English speakers,
and just 5.1% consider it their native language, leading to disparities in
online information access. Unfortunately, automated processes for dubbing of
video - replacing the audio track of a video with a translated alternative -
remains a complex and challenging task due to pipelines, necessitating precise
timing, facial movement synchronization, and prosody matching. While end-to-end
dubbing offers a solution, data scarcity continues to impede the progress of
both end-to-end and pipeline-based methods. In this work, we introduce
Anim-400K, a comprehensive dataset of over 425K aligned animated video segments
in Japanese and English supporting various video-related tasks, including
automated dubbing, simultaneous translation, guided video summarization, and
genre/theme/style classification. Our dataset is made publicly available for
research purposes at https://github.com/davidmchan/Anim400K.