ChatPaper.aiChatPaper

ANIM-400K: Ein umfangreicher Datensatz für die automatisierte End-to-End-Synchronisation von Videos

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

January 10, 2024
Autoren: Kevin Cai, Chonghua Liu, David M. Chan
cs.AI

Zusammenfassung

Der Reichtum an Inhalten im Internet, von denen bis zu 60 % auf Englisch veröffentlicht sind, steht in starkem Kontrast zur globalen Bevölkerung, in der nur 18,8 % Englisch sprechen und lediglich 5,1 % es als ihre Muttersprache betrachten. Dies führt zu Ungleichheiten beim Zugang zu Online-Informationen. Leider bleibt die Automatisierung des Synchronisierens von Videos – das Ersetzen der Audiospur eines Videos durch eine übersetzte Alternative – aufgrund der erforderlichen Prozessschritte eine komplexe und herausfordernde Aufgabe. Dies erfordert präzises Timing, die Synchronisation von Gesichtsbewegungen und die Anpassung der Prosodie. Während End-to-End-Synchronisation eine Lösung bietet, behindert der Mangel an Daten weiterhin den Fortschritt sowohl bei End-to-End- als auch bei prozessbasierten Methoden. In dieser Arbeit stellen wir Anim-400K vor, einen umfassenden Datensatz mit über 425.000 ausgerichteten animierten Videosegmenten in Japanisch und Englisch, der verschiedene videobezogene Aufgaben unterstützt, darunter automatisiertes Synchronisieren, Simultandolmetschen, geführte Videozusammenfassung und Genre/Thema/Stil-Klassifizierung. Unser Datensatz ist zu Forschungszwecken öffentlich verfügbar unter https://github.com/davidmchan/Anim400K.
English
The Internet's wealth of content, with up to 60% published in English, starkly contrasts the global population, where only 18.8% are English speakers, and just 5.1% consider it their native language, leading to disparities in online information access. Unfortunately, automated processes for dubbing of video - replacing the audio track of a video with a translated alternative - remains a complex and challenging task due to pipelines, necessitating precise timing, facial movement synchronization, and prosody matching. While end-to-end dubbing offers a solution, data scarcity continues to impede the progress of both end-to-end and pipeline-based methods. In this work, we introduce Anim-400K, a comprehensive dataset of over 425K aligned animated video segments in Japanese and English supporting various video-related tasks, including automated dubbing, simultaneous translation, guided video summarization, and genre/theme/style classification. Our dataset is made publicly available for research purposes at https://github.com/davidmchan/Anim400K.
PDF120December 15, 2024