AudioToken: Adattamento di Modelli di Diffusione Condizionati al Testo per la Generazione di Immagini da Audio

Abstract

Negli ultimi anni, la generazione di immagini ha compiuto un notevole salto in termini di prestazioni, con i modelli di diffusione che svolgono un ruolo centrale. Sebbene questi modelli generino immagini di alta qualità, sono principalmente condizionati da descrizioni testuali. Ciò solleva la domanda: "come possiamo adattare tali modelli per essere condizionati da altre modalità?". In questo articolo, proponiamo un metodo innovativo che utilizza modelli di diffusione latente addestrati per la generazione di immagini da testo per generare immagini condizionate da registrazioni audio. Utilizzando un modello di codifica audio pre-addestrato, il metodo proposto codifica l'audio in un nuovo token, che può essere considerato come uno strato di adattamento tra le rappresentazioni audio e testuali. Tale paradigma di modellizzazione richiede un numero ridotto di parametri addestrabili, rendendo l'approccio proposto interessante per un'ottimizzazione leggera. I risultati suggeriscono che il metodo proposto è superiore ai metodi di base valutati, considerando metriche sia oggettive che soggettive. Codice e campioni sono disponibili all'indirizzo: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.

English

In recent years, image generation has shown a great leap in performance, where diffusion models play a central role. Although generating high-quality images, such models are mainly conditioned on textual descriptions. This begs the question: "how can we adopt such models to be conditioned on other modalities?". In this paper, we propose a novel method utilizing latent diffusion models trained for text-to-image-generation to generate images conditioned on audio recordings. Using a pre-trained audio encoding model, the proposed method encodes audio into a new token, which can be considered as an adaptation layer between the audio and text representations. Such a modeling paradigm requires a small number of trainable parameters, making the proposed approach appealing for lightweight optimization. Results suggest the proposed method is superior to the evaluated baseline methods, considering objective and subjective metrics. Code and samples are available at: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.

AudioToken: Adattamento di Modelli di Diffusione Condizionati al Testo per la Generazione di Immagini da Audio

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

Abstract

Support