ANIM-400K: 비디오 자동 종단 간 더빙을 위한 대규모 데이터셋
ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video
January 10, 2024
저자: Kevin Cai, Chonghua Liu, David M. Chan
cs.AI
초록
인터넷 콘텐츠의 60%가 영어로 출판되는 반면, 전 세계 인구 중 영어 사용자는 18.8%에 불과하고, 모국어로 영어를 사용하는 인구는 단 5.1%에 그쳐 온라인 정보 접근에 있어 격차가 발생하고 있습니다. 불행히도, 비디오 더빙(비디오의 오디오 트랙을 번역된 대안으로 교체하는 작업)을 위한 자동화 프로세스는 여전히 복잡하고 어려운 과제로 남아 있습니다. 이는 정확한 타이밍, 얼굴 움직임 동기화, 운율 일치 등이 필요한 파이프라인 때문입니다. 엔드투엔드 더빙이 해결책을 제시하지만, 데이터 부족은 여전히 엔드투엔드 및 파이프라인 기반 방법의 발전을 저해하고 있습니다. 본 연구에서는 일본어와 영어로 정렬된 425,000개 이상의 애니메이션 비디오 세그먼트로 구성된 포괄적인 데이터셋인 Anim-400K를 소개합니다. 이 데이터셋은 자동 더빙, 동시 통역, 가이드 비디오 요약, 장르/테마/스타일 분류 등 다양한 비디오 관련 작업을 지원합니다. 우리의 데이터셋은 연구 목적으로 https://github.com/davidmchan/Anim400K에서 공개적으로 이용 가능합니다.
English
The Internet's wealth of content, with up to 60% published in English,
starkly contrasts the global population, where only 18.8% are English speakers,
and just 5.1% consider it their native language, leading to disparities in
online information access. Unfortunately, automated processes for dubbing of
video - replacing the audio track of a video with a translated alternative -
remains a complex and challenging task due to pipelines, necessitating precise
timing, facial movement synchronization, and prosody matching. While end-to-end
dubbing offers a solution, data scarcity continues to impede the progress of
both end-to-end and pipeline-based methods. In this work, we introduce
Anim-400K, a comprehensive dataset of over 425K aligned animated video segments
in Japanese and English supporting various video-related tasks, including
automated dubbing, simultaneous translation, guided video summarization, and
genre/theme/style classification. Our dataset is made publicly available for
research purposes at https://github.com/davidmchan/Anim400K.