Geração Diversificada e Alinhada de Áudio para Vídeo por meio de Adaptação de Modelos de Texto para Vídeo
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation
September 28, 2023
Autores: Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi
cs.AI
Resumo
Consideramos a tarefa de gerar vídeos diversos e realistas guiados por amostras de áudio natural de uma ampla variedade de classes semânticas. Para essa tarefa, os vídeos precisam estar alinhados tanto globalmente quanto temporalmente com o áudio de entrada: globalmente, o áudio de entrada está semanticamente associado ao vídeo de saída como um todo, e temporalmente, cada segmento do áudio de entrada está associado a um segmento correspondente do vídeo. Utilizamos um modelo existente de geração de vídeo condicionado por texto e um modelo de codificação de áudio pré-treinado. O método proposto é baseado em uma rede adaptadora leve, que aprende a mapear a representação baseada em áudio para a representação de entrada esperada pelo modelo de geração de texto para vídeo. Dessa forma, ele também permite a geração de vídeos condicionados por texto, áudio e, pela primeira vez, tanto por texto quanto por áudio, até onde sabemos. Validamos nosso método extensivamente em três conjuntos de dados que demonstram uma diversidade semântica significativa de amostras de áudio-vídeo e propomos ainda uma nova métrica de avaliação (AV-Align) para avaliar o alinhamento dos vídeos gerados com as amostras de áudio de entrada. O AV-Align é baseado na detecção e comparação de picos de energia em ambas as modalidades. Em comparação com as abordagens mais recentes do estado da arte, nosso método gera vídeos que estão melhor alinhados com o som de entrada, tanto em relação ao conteúdo quanto ao eixo temporal. Também mostramos que os vídeos produzidos pelo nosso método apresentam maior qualidade visual e são mais diversos.
English
We consider the task of generating diverse and realistic videos guided by
natural audio samples from a wide variety of semantic classes. For this task,
the videos are required to be aligned both globally and temporally with the
input audio: globally, the input audio is semantically associated with the
entire output video, and temporally, each segment of the input audio is
associated with a corresponding segment of that video. We utilize an existing
text-conditioned video generation model and a pre-trained audio encoder model.
The proposed method is based on a lightweight adaptor network, which learns to
map the audio-based representation to the input representation expected by the
text-to-video generation model. As such, it also enables video generation
conditioned on text, audio, and, for the first time as far as we can ascertain,
on both text and audio. We validate our method extensively on three datasets
demonstrating significant semantic diversity of audio-video samples and further
propose a novel evaluation metric (AV-Align) to assess the alignment of
generated videos with input audio samples. AV-Align is based on the detection
and comparison of energy peaks in both modalities. In comparison to recent
state-of-the-art approaches, our method generates videos that are better
aligned with the input sound, both with respect to content and temporal axis.
We also show that videos produced by our method present higher visual quality
and are more diverse.