Generazione Audio-to-Video Diversificata e Allineata tramite Adattamento di Modelli Text-to-Video
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation
September 28, 2023
Autori: Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi
cs.AI
Abstract
Consideriamo il compito di generare video diversificati e realistici guidati da campioni audio naturali appartenenti a un'ampia varietà di classi semantiche. Per questo compito, i video devono essere allineati sia globalmente che temporalmente con l'audio di input: globalmente, l'audio di input è semanticamente associato all'intero video di output, e temporalmente, ogni segmento dell'audio di input è associato a un corrispondente segmento del video. Utilizziamo un modello esistente di generazione di video condizionato da testo e un modello pre-addestrato di codifica audio. Il metodo proposto si basa su una rete adattatrice leggera, che impara a mappare la rappresentazione basata sull'audio alla rappresentazione di input attesa dal modello di generazione video da testo. In questo modo, consente anche la generazione di video condizionata da testo, audio e, per la prima volta per quanto ne sappiamo, da entrambi testo e audio. Validiamo il nostro metodo in modo estensivo su tre dataset che dimostrano una significativa diversità semantica di campioni audio-video e proponiamo ulteriormente una nuova metrica di valutazione (AV-Align) per valutare l'allineamento dei video generati con i campioni audio di input. AV-Align si basa sul rilevamento e sul confronto dei picchi di energia in entrambe le modalità. Rispetto ai recenti approcci all'avanguardia, il nostro metodo genera video che sono meglio allineati con il suono di input, sia per quanto riguarda il contenuto che l'asse temporale. Mostriamo inoltre che i video prodotti dal nostro metodo presentano una qualità visiva superiore e sono più diversificati.
English
We consider the task of generating diverse and realistic videos guided by
natural audio samples from a wide variety of semantic classes. For this task,
the videos are required to be aligned both globally and temporally with the
input audio: globally, the input audio is semantically associated with the
entire output video, and temporally, each segment of the input audio is
associated with a corresponding segment of that video. We utilize an existing
text-conditioned video generation model and a pre-trained audio encoder model.
The proposed method is based on a lightweight adaptor network, which learns to
map the audio-based representation to the input representation expected by the
text-to-video generation model. As such, it also enables video generation
conditioned on text, audio, and, for the first time as far as we can ascertain,
on both text and audio. We validate our method extensively on three datasets
demonstrating significant semantic diversity of audio-video samples and further
propose a novel evaluation metric (AV-Align) to assess the alignment of
generated videos with input audio samples. AV-Align is based on the detection
and comparison of energy peaks in both modalities. In comparison to recent
state-of-the-art approaches, our method generates videos that are better
aligned with the input sound, both with respect to content and temporal axis.
We also show that videos produced by our method present higher visual quality
and are more diverse.