Het temmen van multimodale gezamenlijke training voor hoogwaardige video-naar-audio synthese.
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
December 19, 2024
Auteurs: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI
Samenvatting
Wij stellen voor om hoogwaardige en gesynchroniseerde audio te synthetiseren, gegeven video- en optionele tekstcondities, met behulp van een nieuw multimodaal gezamenlijk trainingskader genaamd MMAudio. In tegenstelling tot training met één modaliteit die alleen geconditioneerd is op (beperkte) videogegevens, wordt MMAudio gezamenlijk getraind met grootschalige, direct beschikbare tekst-audiogegevens om te leren semantisch uitgelijnde hoogwaardige audiovoorbeelden te genereren. Daarnaast verbeteren we de audiovisuele synchronie met een voorwaardelijk synchronisatiemodule die videovoorwaarden afstemt met audiolaagten op frame-niveau. Getraind met een stroom-matching doelstelling, behaalt MMAudio een nieuwe state-of-the-art prestatie van video naar audio onder publieke modellen op het gebied van audiokwaliteit, semantische uitlijning en audiovisuele synchronisatie, terwijl het een lage inferentietijd heeft (1,23s om een clip van 8s te genereren) en slechts 157M parameters heeft. MMAudio behaalt ook verrassend competitieve prestaties in tekst-naar-audio generatie, wat aantoont dat gezamenlijke training de prestaties van enkelvoudige modaliteit niet belemmert. De code en demo zijn beschikbaar op: https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and
optional text conditions, using a novel multimodal joint training framework
MMAudio. In contrast to single-modality training conditioned on (limited) video
data only, MMAudio is jointly trained with larger-scale, readily available
text-audio data to learn to generate semantically aligned high-quality audio
samples. Additionally, we improve audio-visual synchrony with a conditional
synchronization module that aligns video conditions with audio latents at the
frame level. Trained with a flow matching objective, MMAudio achieves new
video-to-audio state-of-the-art among public models in terms of audio quality,
semantic alignment, and audio-visual synchronization, while having a low
inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio
also achieves surprisingly competitive performance in text-to-audio generation,
showing that joint training does not hinder single-modality performance. Code
and demo are available at: https://hkchengrex.github.io/MMAudio