AudioToken: Adaptación de Modelos de Difusión Condicionados por Texto para la Generación de Audio a Imagen

Resumen

En los últimos años, la generación de imágenes ha experimentado un gran avance en su rendimiento, donde los modelos de difusión desempeñan un papel central. Aunque estos modelos generan imágenes de alta calidad, principalmente están condicionados por descripciones textuales. Esto plantea la pregunta: "¿cómo podemos adaptar estos modelos para que estén condicionados por otras modalidades?". En este artículo, proponemos un método novedoso que utiliza modelos de difusión latente entrenados para la generación de texto a imagen, con el fin de generar imágenes condicionadas por grabaciones de audio. Utilizando un modelo preentrenado de codificación de audio, el método propuesto codifica el audio en un nuevo token, que puede considerarse como una capa de adaptación entre las representaciones de audio y texto. Este paradigma de modelado requiere un número reducido de parámetros entrenables, lo que hace que el enfoque propuesto sea atractivo para una optimización ligera. Los resultados sugieren que el método propuesto es superior a los métodos de referencia evaluados, considerando métricas tanto objetivas como subjetivas. El código y las muestras están disponibles en: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.

English

In recent years, image generation has shown a great leap in performance, where diffusion models play a central role. Although generating high-quality images, such models are mainly conditioned on textual descriptions. This begs the question: "how can we adopt such models to be conditioned on other modalities?". In this paper, we propose a novel method utilizing latent diffusion models trained for text-to-image-generation to generate images conditioned on audio recordings. Using a pre-trained audio encoding model, the proposed method encodes audio into a new token, which can be considered as an adaptation layer between the audio and text representations. Such a modeling paradigm requires a small number of trainable parameters, making the proposed approach appealing for lightweight optimization. Results suggest the proposed method is superior to the evaluated baseline methods, considering objective and subjective metrics. Code and samples are available at: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.

AudioToken: Adaptación de Modelos de Difusión Condicionados por Texto para la Generación de Audio a Imagen

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

Resumen

Support