AudioLDM 2: Holistische audiogeneratie leren met zelfsupervisie voorafgaande training
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
August 10, 2023
Auteurs: Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley
cs.AI
Samenvatting
Hoewel audiogeneratie overeenkomsten vertoont tussen verschillende soorten audio, zoals spraak, muziek en geluidseffecten, vereist het ontwerpen van modellen voor elk type een zorgvuldige afweging van specifieke doelstellingen en vooroordelen die aanzienlijk kunnen verschillen van die van andere types. Om ons dichter bij een verenigd perspectief op audiogeneratie te brengen, stelt dit artikel een raamwerk voor dat dezelfde leermethode gebruikt voor de generatie van spraak, muziek en geluidseffecten. Ons raamwerk introduceert een algemene representatie van audio, genaamd de taal van audio (Language of Audio, LOA). Elke audio kan worden vertaald naar LOA op basis van AudioMAE, een zelfgesuperviseerd vooraf getraind representatie-leermodel. In het generatieproces vertalen we elke modaliteit naar LOA met behulp van een GPT-2-model, en voeren we zelfgesuperviseerd audiogeneratie-leren uit met een latent diffusiemodel dat is geconditioneerd op LOA. Het voorgestelde raamwerk biedt van nature voordelen zoals in-context leervermogen en herbruikbare zelfgesuperviseerde vooraf getrainde AudioMAE- en latent diffusiemodellen. Experimenten op de belangrijkste benchmarks voor tekst-naar-audio, tekst-naar-muziek en tekst-naar-spraak tonen nieuwe state-of-the-art of competitieve prestaties aan ten opzichte van eerdere benaderingen. Onze demo en code zijn beschikbaar op https://audioldm.github.io/audioldm2.
English
Although audio generation shares commonalities across different types of
audio, such as speech, music, and sound effects, designing models for each type
requires careful consideration of specific objectives and biases that can
significantly differ from those of other types. To bring us closer to a unified
perspective of audio generation, this paper proposes a framework that utilizes
the same learning method for speech, music, and sound effect generation. Our
framework introduces a general representation of audio, called language of
audio (LOA). Any audio can be translated into LOA based on AudioMAE, a
self-supervised pre-trained representation learning model. In the generation
process, we translate any modalities into LOA by using a GPT-2 model, and we
perform self-supervised audio generation learning with a latent diffusion model
conditioned on LOA. The proposed framework naturally brings advantages such as
in-context learning abilities and reusable self-supervised pretrained AudioMAE
and latent diffusion models. Experiments on the major benchmarks of
text-to-audio, text-to-music, and text-to-speech demonstrate new
state-of-the-art or competitive performance to previous approaches. Our demo
and code are available at https://audioldm.github.io/audioldm2.