Разнообразное и согласованное преобразование аудио в видео с помощью адаптации модели текста в видео
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation
September 28, 2023
Авторы: Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi
cs.AI
Аннотация
Мы рассматриваем задачу генерации разнообразных и реалистичных видео, управляемых естественными аудиосэмплами из широкого спектра семантических классов. Для этой задачи видео должны быть согласованы с входным аудио как глобально, так и временно: глобально — входное аудио семантически связано со всем выходным видео, а временно — каждый сегмент входного аудио связан с соответствующим сегментом этого видео. Мы используем существующую модель генерации видео, управляемую текстом, и предобученную модель кодирования аудио. Предложенный метод основан на легковесной адаптерной сети, которая обучается отображать аудио-представление в представление, ожидаемое моделью генерации видео из текста. Таким образом, он также позволяет генерировать видео, управляемые текстом, аудио и, впервые, насколько нам известно, одновременно текстом и аудио. Мы тщательно проверяем наш метод на трех наборах данных, демонстрирующих значительное семантическое разнообразие аудио-видео сэмплов, и дополнительно предлагаем новую метрику оценки (AV-Align) для оценки согласованности сгенерированных видео с входными аудиосэмплами. AV-Align основана на обнаружении и сравнении пиков энергии в обоих модальностях. В сравнении с современными подходами наш метод генерирует видео, которые лучше согласованы с входным звуком как по содержанию, так и по временной оси. Мы также показываем, что видео, созданные нашим методом, обладают более высокой визуальной качеством и большим разнообразием.
English
We consider the task of generating diverse and realistic videos guided by
natural audio samples from a wide variety of semantic classes. For this task,
the videos are required to be aligned both globally and temporally with the
input audio: globally, the input audio is semantically associated with the
entire output video, and temporally, each segment of the input audio is
associated with a corresponding segment of that video. We utilize an existing
text-conditioned video generation model and a pre-trained audio encoder model.
The proposed method is based on a lightweight adaptor network, which learns to
map the audio-based representation to the input representation expected by the
text-to-video generation model. As such, it also enables video generation
conditioned on text, audio, and, for the first time as far as we can ascertain,
on both text and audio. We validate our method extensively on three datasets
demonstrating significant semantic diversity of audio-video samples and further
propose a novel evaluation metric (AV-Align) to assess the alignment of
generated videos with input audio samples. AV-Align is based on the detection
and comparison of energy peaks in both modalities. In comparison to recent
state-of-the-art approaches, our method generates videos that are better
aligned with the input sound, both with respect to content and temporal axis.
We also show that videos produced by our method present higher visual quality
and are more diverse.