Dompter l'entraînement conjoint multimodal pour une synthèse vidéo-audio de haute qualité
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
December 19, 2024
Auteurs: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI
Résumé
Nous proposons de synthétiser de l'audio de haute qualité et synchronisé, à partir de vidéos et de conditions textuelles optionnelles, en utilisant un nouveau cadre d'entraînement conjoint multimodal, MMAudio. Contrairement à l'entraînement unimodal conditionné uniquement sur des données vidéo (limitées), MMAudio est entraîné conjointement avec des données texte-audio à plus grande échelle et facilement disponibles pour apprendre à générer des échantillons audio de haute qualité alignés sémantiquement. De plus, nous améliorons la synchronisation audio-visuelle avec un module de synchronisation conditionnelle qui aligne les conditions vidéo avec les latents audio au niveau des images. Entraîné avec un objectif d'ajustement de flux, MMAudio atteint un nouvel état de l'art de la vidéo vers l'audio parmi les modèles publics en termes de qualité audio, d'alignement sémantique et de synchronisation audio-visuelle, tout en ayant un faible temps d'inférence (1,23s pour générer un extrait de 8s) et seulement 157M de paramètres. MMAudio atteint également des performances étonnamment compétitives dans la génération de texte vers audio, montrant que l'entraînement conjoint ne nuit pas aux performances unimodales. Le code et la démonstration sont disponibles sur : https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and
optional text conditions, using a novel multimodal joint training framework
MMAudio. In contrast to single-modality training conditioned on (limited) video
data only, MMAudio is jointly trained with larger-scale, readily available
text-audio data to learn to generate semantically aligned high-quality audio
samples. Additionally, we improve audio-visual synchrony with a conditional
synchronization module that aligns video conditions with audio latents at the
frame level. Trained with a flow matching objective, MMAudio achieves new
video-to-audio state-of-the-art among public models in terms of audio quality,
semantic alignment, and audio-visual synchronization, while having a low
inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio
also achieves surprisingly competitive performance in text-to-audio generation,
showing that joint training does not hinder single-modality performance. Code
and demo are available at: https://hkchengrex.github.io/MMAudioSummary
AI-Generated Summary