ChatPaper.aiChatPaper

AudioToken: Адаптация диффузионных моделей с текстовым условием для генерации изображений на основе аудио

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

May 22, 2023
Авторы: Guy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz
cs.AI

Аннотация

В последние годы генерация изображений продемонстрировала значительный скачок в производительности, где ключевую роль играют диффузионные модели. Хотя такие модели способны создавать изображения высокого качества, они в основном ориентируются на текстовые описания. Это поднимает вопрос: "как можно адаптировать такие модели для работы с другими модальностями?". В данной статье мы предлагаем новый метод, использующий латентные диффузионные модели, обученные для генерации изображений на основе текста, чтобы создавать изображения, ориентированные на аудиозаписи. Используя предварительно обученную модель кодирования аудио, предложенный метод преобразует аудио в новый токен, который можно рассматривать как адаптационный слой между аудио и текстовыми представлениями. Такая парадигма моделирования требует небольшого количества обучаемых параметров, что делает предложенный подход привлекательным для легковесной оптимизации. Результаты показывают, что предложенный метод превосходит оцениваемые базовые методы как по объективным, так и по субъективным метрикам. Код и примеры доступны по адресу: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
English
In recent years, image generation has shown a great leap in performance, where diffusion models play a central role. Although generating high-quality images, such models are mainly conditioned on textual descriptions. This begs the question: "how can we adopt such models to be conditioned on other modalities?". In this paper, we propose a novel method utilizing latent diffusion models trained for text-to-image-generation to generate images conditioned on audio recordings. Using a pre-trained audio encoding model, the proposed method encodes audio into a new token, which can be considered as an adaptation layer between the audio and text representations. Such a modeling paradigm requires a small number of trainable parameters, making the proposed approach appealing for lightweight optimization. Results suggest the proposed method is superior to the evaluated baseline methods, considering objective and subjective metrics. Code and samples are available at: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
PDF32December 15, 2024