Приручение мультимодального совместного обучения для высококачественного синтеза видео в аудио
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
December 19, 2024
Авторы: Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
cs.AI
Аннотация
Мы предлагаем синтезировать высококачественное и синхронизированное аудио на основе видео и дополнительных текстовых условий с использованием новой мультимодальной совместной обучающей структуры MMAudio. В отличие от обучения с использованием одной модальности, условия для которой ограничены только видеоданными, MMAudio обучается совместно с более масштабными, легко доступными текстово-аудио данными для генерации семантически выровненных образцов аудио высокого качества. Кроме того, мы улучшаем аудиовизуальную синхронизацию с помощью условного модуля синхронизации, который выравнивает видеоусловия с аудио-латентами на уровне кадра. Обученный с использованием целевой функции сопоставления потоков, MMAudio достигает нового состояния искусства относительно качества аудио при переводе видео в аудио среди общедоступных моделей по таким параметрам, как качество аудио, семантическое выравнивание и аудиовизуальная синхронизация, при этом имея низкое время вывода (1,23 секунды для генерации клипа длительностью 8 секунд) и всего 157 миллионов параметров. MMAudio также достигает удивительно конкурентоспособных результатов в генерации текста в аудио, показывая, что совместное обучение не препятствует производительности с использованием одной модальности. Код и демонстрация доступны по ссылке: https://hkchengrex.github.io/MMAudio
English
We propose to synthesize high-quality and synchronized audio, given video and
optional text conditions, using a novel multimodal joint training framework
MMAudio. In contrast to single-modality training conditioned on (limited) video
data only, MMAudio is jointly trained with larger-scale, readily available
text-audio data to learn to generate semantically aligned high-quality audio
samples. Additionally, we improve audio-visual synchrony with a conditional
synchronization module that aligns video conditions with audio latents at the
frame level. Trained with a flow matching objective, MMAudio achieves new
video-to-audio state-of-the-art among public models in terms of audio quality,
semantic alignment, and audio-visual synchronization, while having a low
inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio
also achieves surprisingly competitive performance in text-to-audio generation,
showing that joint training does not hinder single-modality performance. Code
and demo are available at: https://hkchengrex.github.io/MMAudioSummary
AI-Generated Summary