MusicLDM: Повышение новизны в генерации музыки из текста с использованием стратегий микширования, синхронизированного с ритмом
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
August 3, 2023
Авторы: Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov
cs.AI
Аннотация
Диффузионные модели продемонстрировали впечатляющие результаты в задачах кросс-модальной генерации, включая генерацию изображений и аудио по тексту. Однако генерация музыки, как особого типа аудио, представляет уникальные сложности из-за ограниченной доступности музыкальных данных и чувствительных вопросов, связанных с авторскими правами и плагиатом. В данной работе для решения этих проблем мы сначала создаем современную модель для генерации музыки по тексту, MusicLDM, адаптируя архитектуры Stable Diffusion и AudioLDM к музыкальной области. Мы достигаем этого путем повторного обучения модели контрастивного предобучения языка и аудио (CLAP) и вокодера Hifi-GAN, которые являются компонентами MusicLDM, на наборе музыкальных данных. Затем, чтобы преодолеть ограничения обучающих данных и избежать плагиата, мы используем модель отслеживания ритма и предлагаем две различные стратегии миксапа для аугментации данных: миксап аудио, синхронизированный с ритмом, и миксап в латентном пространстве, синхронизированный с ритмом, которые перекомбинируют обучающие аудиоданные напрямую или через пространство латентных представлений соответственно. Такие стратегии миксапа побуждают модель интерполировать между музыкальными обучающими образцами и генерировать новую музыку в пределах выпуклой оболочки обучающих данных, делая сгенерированную музыку более разнообразной, но при этом сохраняя верность соответствующему стилю. В дополнение к популярным метрикам оценки мы разрабатываем несколько новых метрик на основе CLAP-оценки, чтобы продемонстрировать, что предложенные MusicLDM и стратегии миксапа, синхронизированного с ритмом, улучшают как качество и новизну сгенерированной музыки, так и соответствие между входным текстом и сгенерированной музыкой.
English
Diffusion models have shown promising results in cross-modal generation
tasks, including text-to-image and text-to-audio generation. However,
generating music, as a special type of audio, presents unique challenges due to
limited availability of music data and sensitive issues related to copyright
and plagiarism. In this paper, to tackle these challenges, we first construct a
state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion
and AudioLDM architectures to the music domain. We achieve this by retraining
the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN
vocoder, as components of MusicLDM, on a collection of music data samples.
Then, to address the limitations of training data and to avoid plagiarism, we
leverage a beat tracking model and propose two different mixup strategies for
data augmentation: beat-synchronous audio mixup and beat-synchronous latent
mixup, which recombine training audio directly or via a latent embeddings
space, respectively. Such mixup strategies encourage the model to interpolate
between musical training samples and generate new music within the convex hull
of the training data, making the generated music more diverse while still
staying faithful to the corresponding style. In addition to popular evaluation
metrics, we design several new evaluation metrics based on CLAP score to
demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies
improve both the quality and novelty of generated music, as well as the
correspondence between input text and generated music.