ChatPaper.aiChatPaper

ANIM-400K: Een grootschalige dataset voor geautomatiseerde end-to-end nasynchronisatie van video

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

January 10, 2024
Auteurs: Kevin Cai, Chonghua Liu, David M. Chan
cs.AI

Samenvatting

De overvloed aan inhoud op internet, waarvan tot 60% in het Engels wordt gepubliceerd, staat in schril contrast met de wereldwijde bevolking, waar slechts 18,8% Engels spreekt en slechts 5,1% het als moedertaal beschouwt, wat leidt tot ongelijkheden in de toegang tot online informatie. Helaas blijft het automatiseren van het nasynchroniseren van video's – het vervangen van de audiospoor van een video door een vertaald alternatief – een complexe en uitdagende taak vanwege de benodigde pipelines, die precieze timing, synchronisatie van gezichtsbewegingen en prosodie-afstemming vereisen. Hoewel end-to-end nasynchronisatie een oplossing biedt, blijft het gebrek aan data de vooruitgang van zowel end-to-end als pipeline-gebaseerde methoden belemmeren. In dit werk introduceren we Anim-400K, een uitgebreide dataset van meer dan 425K uitgelijnde geanimeerde videosegmenten in het Japans en Engels die verschillende video-gerelateerde taken ondersteunen, waaronder geautomatiseerd nasynchroniseren, simultane vertaling, begeleide videosamenvatting en genre/thema/stijlclassificatie. Onze dataset is publiekelijk beschikbaar gemaakt voor onderzoeksdoeleinden op https://github.com/davidmchan/Anim400K.
English
The Internet's wealth of content, with up to 60% published in English, starkly contrasts the global population, where only 18.8% are English speakers, and just 5.1% consider it their native language, leading to disparities in online information access. Unfortunately, automated processes for dubbing of video - replacing the audio track of a video with a translated alternative - remains a complex and challenging task due to pipelines, necessitating precise timing, facial movement synchronization, and prosody matching. While end-to-end dubbing offers a solution, data scarcity continues to impede the progress of both end-to-end and pipeline-based methods. In this work, we introduce Anim-400K, a comprehensive dataset of over 425K aligned animated video segments in Japanese and English supporting various video-related tasks, including automated dubbing, simultaneous translation, guided video summarization, and genre/theme/style classification. Our dataset is made publicly available for research purposes at https://github.com/davidmchan/Anim400K.
PDF120December 15, 2024