ChatPaper.aiChatPaper

AudioLDM 2: Ganzheitliche Audiogenerierung durch selbstüberwachtes Vor-Training

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

August 10, 2023
Autoren: Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley
cs.AI

Zusammenfassung

Obwohl die Audiogenerierung Gemeinsamkeiten über verschiedene Arten von Audio wie Sprache, Musik und Soundeffekte aufweist, erfordert die Entwicklung von Modellen für jeden Typ eine sorgfältige Berücksichtigung spezifischer Ziele und Verzerrungen, die sich erheblich von denen anderer Typen unterscheiden können. Um uns einer einheitlichen Perspektive der Audiogenerierung näher zu bringen, schlägt dieses Papier ein Framework vor, das dieselbe Lernmethode für die Generierung von Sprache, Musik und Soundeffekten nutzt. Unser Framework führt eine allgemeine Darstellung von Audio ein, die als Language of Audio (LOA) bezeichnet wird. Jedes Audio kann basierend auf AudioMAE, einem selbstüberwachten vortrainierten Repräsentationslernmodell, in LOA übersetzt werden. Im Generierungsprozess übersetzen wir beliebige Modalitäten in LOA, indem wir ein GPT-2-Modell verwenden, und führen ein selbstüberwachtes Audiogenerierungslernen mit einem latenten Diffusionsmodell durch, das auf LOA konditioniert ist. Das vorgeschlagene Framework bringt natürlicherweise Vorteile wie Fähigkeiten zum In-Context-Lernen sowie wiederverwendbare selbstüberwachte vortrainierte AudioMAE- und latente Diffusionsmodelle mit sich. Experimente auf den wichtigsten Benchmarks für Text-zu-Audio, Text-zu-Musik und Text-zu-Sprache demonstrieren neue State-of-the-Art- oder wettbewerbsfähige Leistungen im Vergleich zu früheren Ansätzen. Unsere Demo und unser Code sind unter https://audioldm.github.io/audioldm2 verfügbar.
English
Although audio generation shares commonalities across different types of audio, such as speech, music, and sound effects, designing models for each type requires careful consideration of specific objectives and biases that can significantly differ from those of other types. To bring us closer to a unified perspective of audio generation, this paper proposes a framework that utilizes the same learning method for speech, music, and sound effect generation. Our framework introduces a general representation of audio, called language of audio (LOA). Any audio can be translated into LOA based on AudioMAE, a self-supervised pre-trained representation learning model. In the generation process, we translate any modalities into LOA by using a GPT-2 model, and we perform self-supervised audio generation learning with a latent diffusion model conditioned on LOA. The proposed framework naturally brings advantages such as in-context learning abilities and reusable self-supervised pretrained AudioMAE and latent diffusion models. Experiments on the major benchmarks of text-to-audio, text-to-music, and text-to-speech demonstrate new state-of-the-art or competitive performance to previous approaches. Our demo and code are available at https://audioldm.github.io/audioldm2.
PDF371December 15, 2024