Generación Alineada y Diversa de Audio a Video mediante Adaptación de Modelos de Texto a Video
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation
September 28, 2023
Autores: Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi
cs.AI
Resumen
Consideramos la tarea de generar videos diversos y realistas guiados por muestras de audio natural de una amplia variedad de clases semánticas. Para esta tarea, los videos deben estar alineados tanto global como temporalmente con el audio de entrada: globalmente, el audio de entrada está asociado semánticamente con el video completo de salida, y temporalmente, cada segmento del audio de entrada está asociado con un segmento correspondiente de ese video. Utilizamos un modelo existente de generación de videos condicionado por texto y un modelo preentrenado de codificación de audio. El método propuesto se basa en una red adaptadora ligera, que aprende a mapear la representación basada en audio a la representación de entrada esperada por el modelo de generación de texto a video. Como tal, también permite la generación de videos condicionados por texto, audio y, por primera vez hasta donde sabemos, por ambos, texto y audio. Validamos nuestro método extensamente en tres conjuntos de datos que demuestran una diversidad semántica significativa en muestras de audio-video y, además, proponemos una nueva métrica de evaluación (AV-Align) para evaluar la alineación de los videos generados con las muestras de audio de entrada. AV-Align se basa en la detección y comparación de picos de energía en ambas modalidades. En comparación con enfoques recientes de vanguardia, nuestro método genera videos que están mejor alineados con el sonido de entrada, tanto en cuanto al contenido como al eje temporal. También demostramos que los videos producidos por nuestro método presentan una mayor calidad visual y son más diversos.
English
We consider the task of generating diverse and realistic videos guided by
natural audio samples from a wide variety of semantic classes. For this task,
the videos are required to be aligned both globally and temporally with the
input audio: globally, the input audio is semantically associated with the
entire output video, and temporally, each segment of the input audio is
associated with a corresponding segment of that video. We utilize an existing
text-conditioned video generation model and a pre-trained audio encoder model.
The proposed method is based on a lightweight adaptor network, which learns to
map the audio-based representation to the input representation expected by the
text-to-video generation model. As such, it also enables video generation
conditioned on text, audio, and, for the first time as far as we can ascertain,
on both text and audio. We validate our method extensively on three datasets
demonstrating significant semantic diversity of audio-video samples and further
propose a novel evaluation metric (AV-Align) to assess the alignment of
generated videos with input audio samples. AV-Align is based on the detection
and comparison of energy peaks in both modalities. In comparison to recent
state-of-the-art approaches, our method generates videos that are better
aligned with the input sound, both with respect to content and temporal axis.
We also show that videos produced by our method present higher visual quality
and are more diverse.