AudioLDM 2: Holistische audiogeneratie leren met zelfsupervisie voorafgaande training

Samenvatting

Hoewel audiogeneratie overeenkomsten vertoont tussen verschillende soorten audio, zoals spraak, muziek en geluidseffecten, vereist het ontwerpen van modellen voor elk type een zorgvuldige afweging van specifieke doelstellingen en vooroordelen die aanzienlijk kunnen verschillen van die van andere types. Om ons dichter bij een verenigd perspectief op audiogeneratie te brengen, stelt dit artikel een raamwerk voor dat dezelfde leermethode gebruikt voor de generatie van spraak, muziek en geluidseffecten. Ons raamwerk introduceert een algemene representatie van audio, genaamd de taal van audio (Language of Audio, LOA). Elke audio kan worden vertaald naar LOA op basis van AudioMAE, een zelfgesuperviseerd vooraf getraind representatie-leermodel. In het generatieproces vertalen we elke modaliteit naar LOA met behulp van een GPT-2-model, en voeren we zelfgesuperviseerd audiogeneratie-leren uit met een latent diffusiemodel dat is geconditioneerd op LOA. Het voorgestelde raamwerk biedt van nature voordelen zoals in-context leervermogen en herbruikbare zelfgesuperviseerde vooraf getrainde AudioMAE- en latent diffusiemodellen. Experimenten op de belangrijkste benchmarks voor tekst-naar-audio, tekst-naar-muziek en tekst-naar-spraak tonen nieuwe state-of-the-art of competitieve prestaties aan ten opzichte van eerdere benaderingen. Onze demo en code zijn beschikbaar op https://audioldm.github.io/audioldm2.

English

Although audio generation shares commonalities across different types of audio, such as speech, music, and sound effects, designing models for each type requires careful consideration of specific objectives and biases that can significantly differ from those of other types. To bring us closer to a unified perspective of audio generation, this paper proposes a framework that utilizes the same learning method for speech, music, and sound effect generation. Our framework introduces a general representation of audio, called language of audio (LOA). Any audio can be translated into LOA based on AudioMAE, a self-supervised pre-trained representation learning model. In the generation process, we translate any modalities into LOA by using a GPT-2 model, and we perform self-supervised audio generation learning with a latent diffusion model conditioned on LOA. The proposed framework naturally brings advantages such as in-context learning abilities and reusable self-supervised pretrained AudioMAE and latent diffusion models. Experiments on the major benchmarks of text-to-audio, text-to-music, and text-to-speech demonstrate new state-of-the-art or competitive performance to previous approaches. Our demo and code are available at https://audioldm.github.io/audioldm2.

AudioLDM 2: Holistische audiogeneratie leren met zelfsupervisie voorafgaande training

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

Samenvatting

Support