ChatPaper.aiChatPaper

MusicLDM: Steigerung der Neuartigkeit in der Text-zu-Musik-Generierung durch Beat-synchrone Mixup-Strategien

MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies

August 3, 2023
Autoren: Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov
cs.AI

Zusammenfassung

Diffusionsmodelle haben vielversprechende Ergebnisse bei Cross-Modal-Generierungsaufgaben gezeigt, einschließlich Text-zu-Bild- und Text-zu-Audio-Generierung. Die Erzeugung von Musik als spezielle Form von Audio stellt jedoch einzigartige Herausforderungen dar, bedingt durch die begrenzte Verfügbarkeit von Musikdaten und sensible Fragen im Zusammenhang mit Urheberrecht und Plagiaten. In diesem Papier stellen wir, um diese Herausforderungen zu bewältigen, zunächst ein modernes Text-zu-Musik-Modell namens MusicLDM vor, das die Architekturen von Stable Diffusion und AudioLDM an den Musikbereich anpasst. Dies erreichen wir, indem wir das kontrastive Sprach-Audio-Vortrainierungsmodell (CLAP) und den Hifi-GAN-Vocoder, als Komponenten von MusicLDM, auf einer Sammlung von Musikdaten neu trainieren. Um die Einschränkungen der Trainingsdaten zu überwinden und Plagiate zu vermeiden, nutzen wir ein Beat-Tracking-Modell und schlagen zwei verschiedene Mixup-Strategien zur Datenaugmentierung vor: Beat-synchrones Audio-Mixup und Beat-synchrones latentes Mixup, die Trainings-Audiodaten entweder direkt oder über einen latenten Einbettungsraum rekombinieren. Solche Mixup-Strategien fördern die Interpolation zwischen musikalischen Trainingsbeispielen und die Erzeugung neuer Musik innerhalb der konvexen Hülle der Trainingsdaten, wodurch die generierte Musik vielfältiger wird, während sie dennoch dem entsprechenden Stil treu bleibt. Zusätzlich zu gängigen Bewertungsmetriken entwerfen wir mehrere neue Bewertungsmetriken basierend auf dem CLAP-Score, um zu zeigen, dass unser vorgeschlagenes MusicLDM und die beat-synchronen Mixup-Strategien sowohl die Qualität und Neuartigkeit der generierten Musik als auch die Übereinstimmung zwischen Eingabetext und generierter Musik verbessern.
English
Diffusion models have shown promising results in cross-modal generation tasks, including text-to-image and text-to-audio generation. However, generating music, as a special type of audio, presents unique challenges due to limited availability of music data and sensitive issues related to copyright and plagiarism. In this paper, to tackle these challenges, we first construct a state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion and AudioLDM architectures to the music domain. We achieve this by retraining the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN vocoder, as components of MusicLDM, on a collection of music data samples. Then, to address the limitations of training data and to avoid plagiarism, we leverage a beat tracking model and propose two different mixup strategies for data augmentation: beat-synchronous audio mixup and beat-synchronous latent mixup, which recombine training audio directly or via a latent embeddings space, respectively. Such mixup strategies encourage the model to interpolate between musical training samples and generate new music within the convex hull of the training data, making the generated music more diverse while still staying faithful to the corresponding style. In addition to popular evaluation metrics, we design several new evaluation metrics based on CLAP score to demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies improve both the quality and novelty of generated music, as well as the correspondence between input text and generated music.
PDF180December 15, 2024