Effiziente neuronale Musikerzeugung
Efficient Neural Music Generation
May 25, 2023
Autoren: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Musikgenerierung wurden durch den state-of-the-art Ansatz MusicLM, der eine Hierarchie von drei Sprachmodellen (LMs) für semantische, grob akustische und fein akustische Modellierung umfasst, bemerkenswert vorangetrieben. Allerdings erfordert das Sampling mit MusicLM die sequenzielle Verarbeitung durch diese LMs, um die fein granularen akustischen Tokens zu erhalten, was es rechenintensiv und für eine Echtzeitgenerierung ungeeignet macht. Eine effiziente Musikgenerierung mit einer Qualität, die mit MusicLM vergleichbar ist, bleibt eine erhebliche Herausforderung. In diesem Artikel präsentieren wir MeLoDy (M für Musik; L für LM; D für Diffusion), ein LM-gesteuertes Diffusionsmodell, das Musikaufnahmen von state-of-the-art Qualität erzeugt und dabei 95,7 % bzw. 99,6 % der Vorwärtsdurchläufe in MusicLM für das Sampling von 10s bzw. 30s Musik reduziert. MeLoDy übernimmt das höchste LM von MusicLM für die semantische Modellierung und wendet ein neuartiges Dual-Path-Diffusion (DPD)-Modell sowie ein Audio-VAE-GAN an, um die konditionierenden semantischen Tokens effizient in Wellenform zu dekodieren. DPD wurde vorgeschlagen, um gleichzeitig die grobe und feine Akustik zu modellieren, indem die semantischen Informationen effektiv über Cross-Attention in jedem Denoising-Schritt in Segmente von Latents integriert werden. Unsere experimentellen Ergebnisse deuten auf die Überlegenheit von MeLoDy hin, nicht nur in seinen praktischen Vorteilen bei der Sampling-Geschwindigkeit und der unendlich fortsetzbaren Generierung, sondern auch in seiner state-of-the-art Musikalität, Audioqualität und Textkorrelation. Unsere Beispiele sind verfügbar unter https://Efficient-MeLoDy.github.io/.
English
Recent progress in music generation has been remarkably advanced by the
state-of-the-art MusicLM, which comprises a hierarchy of three LMs,
respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet,
sampling with the MusicLM requires processing through these LMs one by one to
obtain the fine-grained acoustic tokens, making it computationally expensive
and prohibitive for a real-time generation. Efficient music generation with a
quality on par with MusicLM remains a significant challenge. In this paper, we
present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion
model that generates music audios of state-of-the-art quality meanwhile
reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling
10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for
semantic modeling, and applies a novel dual-path diffusion (DPD) model and an
audio VAE-GAN to efficiently decode the conditioning semantic tokens into
waveform. DPD is proposed to simultaneously model the coarse and fine acoustics
by incorporating the semantic information into segments of latents effectively
via cross-attention at each denoising step. Our experimental results suggest
the superiority of MeLoDy, not only in its practical advantages on sampling
speed and infinitely continuable generation, but also in its state-of-the-art
musicality, audio quality, and text correlation.
Our samples are available at https://Efficient-MeLoDy.github.io/.