ChatPaper.aiChatPaper

Bändigung des multimodalen gemeinsamen Trainings für hochwertige Video-zu-Audio-Synthese

Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

December 19, 2024
Autoren: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI

Zusammenfassung

Wir schlagen vor, hochwertige und synchronisierte Audioinhalte unter Verwendung eines neuartigen multimodalen gemeinsamen Trainingsrahmens MMAudio zu synthetisieren. Im Gegensatz zum Training mit nur einer Modalität, das nur auf (begrenzten) Video-Daten basiert, wird MMAudio gemeinsam mit umfangreicheren, leicht verfügbaren Text-Audio-Daten trainiert, um das Generieren semantisch ausgerichteter hochwertiger Audio-Samples zu erlernen. Darüber hinaus verbessern wir die Audio-Visuelle Synchronisation mit einem bedingten Synchronisationsmodul, das Video-Bedingungen mit Audio-Latenzen auf Frame-Ebene abgleicht. Mit einem Trainingsziel zur Flussanpassung erreicht MMAudio einen neuen Stand der Technik von Video-zu-Audio unter öffentlichen Modellen in Bezug auf Audioqualität, semantische Ausrichtung und Audio-Visuelle Synchronisation, bei gleichzeitig geringer Inferenzzeit (1,23s zur Generierung eines 8s-Clips) und nur 157M Parametern. MMAudio erzielt auch überraschend wettbewerbsfähige Leistungen bei der Text-zu-Audio-Generierung und zeigt, dass das gemeinsame Training die Leistung bei einer einzelnen Modalität nicht beeinträchtigt. Der Code und eine Demo sind verfügbar unter: https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and optional text conditions, using a novel multimodal joint training framework MMAudio. In contrast to single-modality training conditioned on (limited) video data only, MMAudio is jointly trained with larger-scale, readily available text-audio data to learn to generate semantically aligned high-quality audio samples. Additionally, we improve audio-visual synchrony with a conditional synchronization module that aligns video conditions with audio latents at the frame level. Trained with a flow matching objective, MMAudio achieves new video-to-audio state-of-the-art among public models in terms of audio quality, semantic alignment, and audio-visual synchronization, while having a low inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio also achieves surprisingly competitive performance in text-to-audio generation, showing that joint training does not hinder single-modality performance. Code and demo are available at: https://hkchengrex.github.io/MMAudio

Summary

AI-Generated Summary

PDF182December 23, 2024