AudioToken: Adattamento di Modelli di Diffusione Condizionati al Testo per la Generazione di Immagini da Audio
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
May 22, 2023
Autori: Guy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz
cs.AI
Abstract
Negli ultimi anni, la generazione di immagini ha compiuto un notevole salto in termini di prestazioni, con i modelli di diffusione che svolgono un ruolo centrale. Sebbene questi modelli generino immagini di alta qualità, sono principalmente condizionati da descrizioni testuali. Ciò solleva la domanda: "come possiamo adattare tali modelli per essere condizionati da altre modalità?". In questo articolo, proponiamo un metodo innovativo che utilizza modelli di diffusione latente addestrati per la generazione di immagini da testo per generare immagini condizionate da registrazioni audio. Utilizzando un modello di codifica audio pre-addestrato, il metodo proposto codifica l'audio in un nuovo token, che può essere considerato come uno strato di adattamento tra le rappresentazioni audio e testuali. Tale paradigma di modellizzazione richiede un numero ridotto di parametri addestrabili, rendendo l'approccio proposto interessante per un'ottimizzazione leggera. I risultati suggeriscono che il metodo proposto è superiore ai metodi di base valutati, considerando metriche sia oggettive che soggettive. Codice e campioni sono disponibili all'indirizzo: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
English
In recent years, image generation has shown a great leap in performance,
where diffusion models play a central role. Although generating high-quality
images, such models are mainly conditioned on textual descriptions. This begs
the question: "how can we adopt such models to be conditioned on other
modalities?". In this paper, we propose a novel method utilizing latent
diffusion models trained for text-to-image-generation to generate images
conditioned on audio recordings. Using a pre-trained audio encoding model, the
proposed method encodes audio into a new token, which can be considered as an
adaptation layer between the audio and text representations. Such a modeling
paradigm requires a small number of trainable parameters, making the proposed
approach appealing for lightweight optimization. Results suggest the proposed
method is superior to the evaluated baseline methods, considering objective and
subjective metrics. Code and samples are available at:
https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.