AudioToken: Adaptación de Modelos de Difusión Condicionados por Texto para la Generación de Audio a Imagen
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
May 22, 2023
Autores: Guy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz
cs.AI
Resumen
En los últimos años, la generación de imágenes ha experimentado un gran avance en su rendimiento, donde los modelos de difusión desempeñan un papel central. Aunque estos modelos generan imágenes de alta calidad, principalmente están condicionados por descripciones textuales. Esto plantea la pregunta: "¿cómo podemos adaptar estos modelos para que estén condicionados por otras modalidades?". En este artículo, proponemos un método novedoso que utiliza modelos de difusión latente entrenados para la generación de texto a imagen, con el fin de generar imágenes condicionadas por grabaciones de audio. Utilizando un modelo preentrenado de codificación de audio, el método propuesto codifica el audio en un nuevo token, que puede considerarse como una capa de adaptación entre las representaciones de audio y texto. Este paradigma de modelado requiere un número reducido de parámetros entrenables, lo que hace que el enfoque propuesto sea atractivo para una optimización ligera. Los resultados sugieren que el método propuesto es superior a los métodos de referencia evaluados, considerando métricas tanto objetivas como subjetivas. El código y las muestras están disponibles en: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
English
In recent years, image generation has shown a great leap in performance,
where diffusion models play a central role. Although generating high-quality
images, such models are mainly conditioned on textual descriptions. This begs
the question: "how can we adopt such models to be conditioned on other
modalities?". In this paper, we propose a novel method utilizing latent
diffusion models trained for text-to-image-generation to generate images
conditioned on audio recordings. Using a pre-trained audio encoding model, the
proposed method encodes audio into a new token, which can be considered as an
adaptation layer between the audio and text representations. Such a modeling
paradigm requires a small number of trainable parameters, making the proposed
approach appealing for lightweight optimization. Results suggest the proposed
method is superior to the evaluated baseline methods, considering objective and
subjective metrics. Code and samples are available at:
https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.