От дискретных токенов к высококачественному аудио с использованием многополосной диффузии
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion
August 2, 2023
Авторы: Robin San Roman, Yossi Adi, Antoine Deleforge, Romain Serizel, Gabriel Synnaeve, Alexandre Défossez
cs.AI
Аннотация
Глубокие генеративные модели способны создавать аудио высокой точности, используя различные типы представлений (например, мел-спектрограммы, мел-частотные кепстральные коэффициенты (MFCC)). В последнее время такие модели применялись для синтеза аудиоволн на основе сильно сжатых представлений. Хотя эти методы дают впечатляющие результаты, они склонны генерировать слышимые артефакты, если используемые представления содержат ошибки или несовершенны. Альтернативный подход к моделированию заключается в использовании диффузионных моделей. Однако они в основном применялись в качестве вокодеров речи (т.е. на основе мел-спектрограмм) или для генерации сигналов с относительно низкой частотой дискретизации. В данной работе мы предлагаем высокоточную многополосную диффузионную модель, которая генерирует любой тип аудио (например, речь, музыку, окружающие звуки) из низкобитрейтных дискретных представлений. При одинаковом битрейте предложенный подход превосходит современные генеративные методы по воспринимаемому качеству. Код для обучения и оценки, а также аудиообразцы доступны на странице facebookresearch/audiocraft на Github.
English
Deep generative models can generate high-fidelity audio conditioned on
various types of representations (e.g., mel-spectrograms, Mel-frequency
Cepstral Coefficients (MFCC)). Recently, such models have been used to
synthesize audio waveforms conditioned on highly compressed representations.
Although such methods produce impressive results, they are prone to generate
audible artifacts when the conditioning is flawed or imperfect. An alternative
modeling approach is to use diffusion models. However, these have mainly been
used as speech vocoders (i.e., conditioned on mel-spectrograms) or generating
relatively low sampling rate signals. In this work, we propose a high-fidelity
multi-band diffusion-based framework that generates any type of audio modality
(e.g., speech, music, environmental sounds) from low-bitrate discrete
representations. At equal bit rate, the proposed approach outperforms
state-of-the-art generative techniques in terms of perceptual quality. Training
and, evaluation code, along with audio samples, are available on the
facebookresearch/audiocraft Github page.