Эффективная генерация музыки с использованием нейронных сетей
Efficient Neural Music Generation
May 25, 2023
Авторы: Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
cs.AI
Аннотация
Последние достижения в области генерации музыки значительно продвинулись благодаря передовой модели MusicLM, которая включает иерархию из трех языковых моделей (LM), отвечающих соответственно за семантическое, грубое акустическое и детализированное акустическое моделирование. Однако генерация с использованием MusicLM требует последовательной обработки через эти LM для получения детализированных акустических токенов, что делает её вычислительно затратной и непригодной для работы в реальном времени. Эффективная генерация музыки с качеством, сопоставимым с MusicLM, остается серьезной проблемой. В данной статье мы представляем MeLoDy (M — музыка; L — языковая модель; D — диффузия), модель диффузии, управляемую языковой моделью, которая генерирует аудио музыки с качеством, соответствующим современным стандартам, при этом сокращая количество прямых проходов в MusicLM на 95,7% или 99,6% для генерации 10-секундных или 30-секундных композиций соответственно. MeLoDy наследует языковую модель высшего уровня от MusicLM для семантического моделирования и применяет новую модель двойного пути диффузии (DPD) и аудио VAE-GAN для эффективного декодирования семантических токенов в звуковую волну. DPD предложена для одновременного моделирования грубых и детализированных акустических характеристик путем эффективного включения семантической информации в сегменты латентных переменных через механизм кросс-внимания на каждом шаге удаления шума. Результаты экспериментов демонстрируют превосходство MeLoDy не только в практических преимуществах, таких как скорость генерации и возможность бесконечного продолжения, но и в её передовых показателях музыкальности, качества звука и соответствия тексту.
Наши примеры доступны по адресу https://Efficient-MeLoDy.github.io/.
English
Recent progress in music generation has been remarkably advanced by the
state-of-the-art MusicLM, which comprises a hierarchy of three LMs,
respectively, for semantic, coarse acoustic, and fine acoustic modelings. Yet,
sampling with the MusicLM requires processing through these LMs one by one to
obtain the fine-grained acoustic tokens, making it computationally expensive
and prohibitive for a real-time generation. Efficient music generation with a
quality on par with MusicLM remains a significant challenge. In this paper, we
present MeLoDy (M for music; L for LM; D for diffusion), an LM-guided diffusion
model that generates music audios of state-of-the-art quality meanwhile
reducing 95.7% or 99.6% forward passes in MusicLM, respectively, for sampling
10s or 30s music. MeLoDy inherits the highest-level LM from MusicLM for
semantic modeling, and applies a novel dual-path diffusion (DPD) model and an
audio VAE-GAN to efficiently decode the conditioning semantic tokens into
waveform. DPD is proposed to simultaneously model the coarse and fine acoustics
by incorporating the semantic information into segments of latents effectively
via cross-attention at each denoising step. Our experimental results suggest
the superiority of MeLoDy, not only in its practical advantages on sampling
speed and infinitely continuable generation, but also in its state-of-the-art
musicality, audio quality, and text correlation.
Our samples are available at https://Efficient-MeLoDy.github.io/.