Generación Eficiente de Música con Redes Neuronales
Efficient Neural Music Generation
May 25, 2023
Autores: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
cs.AI
Resumen
Los avances recientes en la generación de música han sido notablemente impulsados por el estado del arte de MusicLM, que comprende una jerarquía de tres modelos de lenguaje (LM), respectivamente, para el modelado semántico, acústico grueso y acústico fino. Sin embargo, el muestreo con MusicLM requiere procesar estos LM uno por uno para obtener los tokens acústicos de grano fino, lo que lo hace computacionalmente costoso y prohibitivo para una generación en tiempo real. La generación eficiente de música con una calidad comparable a MusicLM sigue siendo un desafío significativo. En este artículo, presentamos MeLoDy (M para música; L para LM; D para difusión), un modelo de difusión guiado por LM que genera audios musicales de calidad de vanguardia mientras reduce un 95,7% o un 99,6% de las pasadas hacia adelante en MusicLM, respectivamente, para muestrear música de 10s o 30s. MeLoDy hereda el LM de nivel más alto de MusicLM para el modelado semántico y aplica un novedoso modelo de difusión de doble vía (DPD) y un VAE-GAN de audio para decodificar eficientemente los tokens semánticos de condicionamiento en forma de onda. DPD se propone para modelar simultáneamente la acústica gruesa y fina incorporando la información semántica en segmentos de latentes de manera efectiva mediante atención cruzada en cada paso de eliminación de ruido. Nuestros resultados experimentales sugieren la superioridad de MeLoDy, no solo en sus ventajas prácticas en velocidad de muestreo y generación infinitamente continuable, sino también en su musicalidad, calidad de audio y correlación con el texto de vanguardia. Nuestras muestras están disponibles en https://Efficient-MeLoDy.github.io/.
English
Recent progress in music generation has been remarkably advanced by the
state-of-the-art MusicLM, which comprises a hierarchy of three LMs,
respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet,
sampling with the MusicLM requires processing through these LMs one by one to
obtain the fine-grained acoustic tokens, making it computationally expensive
and prohibitive for a real-time generation. Efficient music generation with a
quality on par with MusicLM remains a significant challenge. In this paper, we
present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion
model that generates music audios of state-of-the-art quality meanwhile
reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling
10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for
semantic modeling, and applies a novel dual-path diffusion (DPD) model and an
audio VAE-GAN to efficiently decode the conditioning semantic tokens into
waveform. DPD is proposed to simultaneously model the coarse and fine acoustics
by incorporating the semantic information into segments of latents effectively
via cross-attention at each denoising step. Our experimental results suggest
the superiority of MeLoDy, not only in its practical advantages on sampling
speed and infinitely continuable generation, but also in its state-of-the-art
musicality, audio quality, and text correlation.
Our samples are available at https://Efficient-MeLoDy.github.io/.