ChatPaper.aiChatPaper

Effiziente neuronale Musikerzeugung

Efficient Neural Music Generation

May 25, 2023
Autoren: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Musikgenerierung wurden durch den state-of-the-art Ansatz MusicLM, der eine Hierarchie von drei Sprachmodellen (LMs) für semantische, grob akustische und fein akustische Modellierung umfasst, bemerkenswert vorangetrieben. Allerdings erfordert das Sampling mit MusicLM die sequenzielle Verarbeitung durch diese LMs, um die fein granularen akustischen Tokens zu erhalten, was es rechenintensiv und für eine Echtzeitgenerierung ungeeignet macht. Eine effiziente Musikgenerierung mit einer Qualität, die mit MusicLM vergleichbar ist, bleibt eine erhebliche Herausforderung. In diesem Artikel präsentieren wir MeLoDy (M für Musik; L für LM; D für Diffusion), ein LM-gesteuertes Diffusionsmodell, das Musikaufnahmen von state-of-the-art Qualität erzeugt und dabei 95,7 % bzw. 99,6 % der Vorwärtsdurchläufe in MusicLM für das Sampling von 10s bzw. 30s Musik reduziert. MeLoDy übernimmt das höchste LM von MusicLM für die semantische Modellierung und wendet ein neuartiges Dual-Path-Diffusion (DPD)-Modell sowie ein Audio-VAE-GAN an, um die konditionierenden semantischen Tokens effizient in Wellenform zu dekodieren. DPD wurde vorgeschlagen, um gleichzeitig die grobe und feine Akustik zu modellieren, indem die semantischen Informationen effektiv über Cross-Attention in jedem Denoising-Schritt in Segmente von Latents integriert werden. Unsere experimentellen Ergebnisse deuten auf die Überlegenheit von MeLoDy hin, nicht nur in seinen praktischen Vorteilen bei der Sampling-Geschwindigkeit und der unendlich fortsetzbaren Generierung, sondern auch in seiner state-of-the-art Musikalität, Audioqualität und Textkorrelation. Unsere Beispiele sind verfügbar unter https://Efficient-MeLoDy.github.io/.
English
Recent progress in music generation has been remarkably advanced by the state-of-the-art MusicLM, which comprises a hierarchy of three LMs, respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet, sampling with the MusicLM requires processing through these LMs one by one to obtain the fine-grained acoustic tokens, making it computationally expensive and prohibitive for a real-time generation. Efficient music generation with a quality on par with MusicLM remains a significant challenge. In this paper, we present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion model that generates music audios of state-of-the-art quality meanwhile reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling 10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for semantic modeling, and applies a novel dual-path diffusion (DPD) model and an audio VAE-GAN to efficiently decode the conditioning semantic tokens into waveform. DPD is proposed to simultaneously model the coarse and fine acoustics by incorporating the semantic information into segments of latents effectively via cross-attention at each denoising step. Our experimental results suggest the superiority of MeLoDy, not only in its practical advantages on sampling speed and infinitely continuable generation, but also in its state-of-the-art musicality, audio quality, and text correlation. Our samples are available at https://Efficient-MeLoDy.github.io/.
PDF20December 15, 2024