ChatPaper.aiChatPaper

Dompter l'entraînement conjoint multimodal pour une synthèse vidéo-audio de haute qualité

Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

December 19, 2024
Auteurs: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI

Résumé

Nous proposons de synthétiser de l'audio de haute qualité et synchronisé, à partir de vidéos et de conditions textuelles optionnelles, en utilisant un nouveau cadre d'entraînement conjoint multimodal, MMAudio. Contrairement à l'entraînement unimodal conditionné uniquement sur des données vidéo (limitées), MMAudio est entraîné conjointement avec des données texte-audio à plus grande échelle et facilement disponibles pour apprendre à générer des échantillons audio de haute qualité alignés sémantiquement. De plus, nous améliorons la synchronisation audio-visuelle avec un module de synchronisation conditionnelle qui aligne les conditions vidéo avec les latents audio au niveau des images. Entraîné avec un objectif d'ajustement de flux, MMAudio atteint un nouvel état de l'art de la vidéo vers l'audio parmi les modèles publics en termes de qualité audio, d'alignement sémantique et de synchronisation audio-visuelle, tout en ayant un faible temps d'inférence (1,23s pour générer un extrait de 8s) et seulement 157M de paramètres. MMAudio atteint également des performances étonnamment compétitives dans la génération de texte vers audio, montrant que l'entraînement conjoint ne nuit pas aux performances unimodales. Le code et la démonstration sont disponibles sur : https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and optional text conditions, using a novel multimodal joint training framework MMAudio. In contrast to single-modality training conditioned on (limited) video data only, MMAudio is jointly trained with larger-scale, readily available text-audio data to learn to generate semantically aligned high-quality audio samples. Additionally, we improve audio-visual synchrony with a conditional synchronization module that aligns video conditions with audio latents at the frame level. Trained with a flow matching objective, MMAudio achieves new video-to-audio state-of-the-art among public models in terms of audio quality, semantic alignment, and audio-visual synchronization, while having a low inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio also achieves surprisingly competitive performance in text-to-audio generation, showing that joint training does not hinder single-modality performance. Code and demo are available at: https://hkchengrex.github.io/MMAudio

Summary

AI-Generated Summary

PDF182December 23, 2024