Domando el Entrenamiento Conjunto Multimodal para la Síntesis de Video a Audio de Alta Calidad
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
December 19, 2024
Autores: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI
Resumen
Proponemos sintetizar audio de alta calidad y sincronizado, dado un video y condiciones de texto opcionales, utilizando un novedoso marco de entrenamiento conjunto multimodal llamado MMAudio. En contraste con el entrenamiento de una sola modalidad condicionado solo a datos de video (limitados), MMAudio se entrena conjuntamente con datos texto-audio a gran escala y fácilmente disponibles para aprender a generar muestras de audio de alta calidad alineadas semánticamente. Además, mejoramos la sincronización audio-visual con un módulo de sincronización condicional que alinea las condiciones de video con latentes de audio a nivel de fotograma. Entrenado con un objetivo de coincidencia de flujo, MMAudio logra un nuevo estado del arte de video a audio entre los modelos públicos en términos de calidad de audio, alineación semántica y sincronización audio-visual, con un bajo tiempo de inferencia (1.23 segundos para generar un clip de 8 segundos) y solo 157 millones de parámetros. MMAudio también logra un rendimiento sorprendentemente competitivo en la generación de texto a audio, demostrando que el entrenamiento conjunto no obstaculiza el rendimiento de una sola modalidad. El código y la demostración están disponibles en: https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and
optional text conditions, using a novel multimodal joint training framework
MMAudio. In contrast to single-modality training conditioned on (limited) video
data only, MMAudio is jointly trained with larger-scale, readily available
text-audio data to learn to generate semantically aligned high-quality audio
samples. Additionally, we improve audio-visual synchrony with a conditional
synchronization module that aligns video conditions with audio latents at the
frame level. Trained with a flow matching objective, MMAudio achieves new
video-to-audio state-of-the-art among public models in terms of audio quality,
semantic alignment, and audio-visual synchronization, while having a low
inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio
also achieves surprisingly competitive performance in text-to-audio generation,
showing that joint training does not hinder single-modality performance. Code
and demo are available at: https://hkchengrex.github.io/MMAudioSummary
AI-Generated Summary