Зрение и слух: генерация визуально-аудио контента в открытой области с использованием диффузионных моделей и латентных выравнивателей
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners
February 27, 2024
Авторы: Yazhou Xing, Yingqing He, Zeyue Tian, Xintao Wang, Qifeng Chen
cs.AI
Аннотация
Создание видео- и аудиоконтента является ключевой технологией для киноиндустрии и профессиональных пользователей. В последнее время существующие методы, основанные на диффузии, решают задачи генерации видео и аудио по отдельности, что затрудняет перенос этих технологий из академической среды в промышленность. В данной работе мы стремимся заполнить этот пробел, предлагая тщательно разработанную оптимизационную структуру для кросс-визуально-аудио и совместной визуально-аудио генерации. Мы отмечаем мощные возможности генерации существующих моделей для создания видео или аудио. Поэтому вместо обучения крупных моделей с нуля мы предлагаем объединить существующие сильные модели через общее пространство латентных представлений. В частности, мы предлагаем мультимодальный латентный выравниватель с использованием предварительно обученной модели ImageBind. Наш латентный выравниватель имеет схожую основу с классификаторным управлением, которое направляет процесс удаления шума в диффузии во время вывода. Благодаря тщательно разработанной стратегии оптимизации и функциям потерь, мы демонстрируем превосходную производительность нашего метода в задачах совместной генерации видео и аудио, визуально-управляемой генерации аудио и аудио-управляемой генерации визуального контента. Проектный веб-сайт доступен по адресу https://yzxing87.github.io/Seeing-and-Hearing/.
English
Video and audio content creation serves as the core technique for the movie
industry and professional users. Recently, existing diffusion-based methods
tackle video and audio generation separately, which hinders the technique
transfer from academia to industry. In this work, we aim at filling the gap,
with a carefully designed optimization-based framework for cross-visual-audio
and joint-visual-audio generation. We observe the powerful generation ability
of off-the-shelf video or audio generation models. Thus, instead of training
the giant models from scratch, we propose to bridge the existing strong models
with a shared latent representation space. Specifically, we propose a
multimodality latent aligner with the pre-trained ImageBind model. Our latent
aligner shares a similar core as the classifier guidance that guides the
diffusion denoising process during inference time. Through carefully designed
optimization strategy and loss functions, we show the superior performance of
our method on joint video-audio generation, visual-steered audio generation,
and audio-steered visual generation tasks. The project website can be found at
https://yzxing87.github.io/Seeing-and-Hearing/