AudioLDM 2: Ganzheitliche Audiogenerierung durch selbstüberwachtes Vor-Training
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
August 10, 2023
Autoren: Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley
cs.AI
Zusammenfassung
Obwohl die Audiogenerierung Gemeinsamkeiten über verschiedene Arten von
Audio wie Sprache, Musik und Soundeffekte aufweist, erfordert die Entwicklung
von Modellen für jeden Typ eine sorgfältige Berücksichtigung spezifischer
Ziele und Verzerrungen, die sich erheblich von denen anderer Typen
unterscheiden können. Um uns einer einheitlichen Perspektive der
Audiogenerierung näher zu bringen, schlägt dieses Papier ein Framework vor,
das dieselbe Lernmethode für die Generierung von Sprache, Musik und
Soundeffekten nutzt. Unser Framework führt eine allgemeine Darstellung von
Audio ein, die als Language of Audio (LOA) bezeichnet wird. Jedes Audio kann
basierend auf AudioMAE, einem selbstüberwachten vortrainierten
Repräsentationslernmodell, in LOA übersetzt werden. Im Generierungsprozess
übersetzen wir beliebige Modalitäten in LOA, indem wir ein GPT-2-Modell
verwenden, und führen ein selbstüberwachtes Audiogenerierungslernen mit einem
latenten Diffusionsmodell durch, das auf LOA konditioniert ist. Das vorgeschlagene
Framework bringt natürlicherweise Vorteile wie Fähigkeiten zum In-Context-Lernen
sowie wiederverwendbare selbstüberwachte vortrainierte AudioMAE- und latente
Diffusionsmodelle mit sich. Experimente auf den wichtigsten Benchmarks für
Text-zu-Audio, Text-zu-Musik und Text-zu-Sprache demonstrieren neue
State-of-the-Art- oder wettbewerbsfähige Leistungen im Vergleich zu früheren
Ansätzen. Unsere Demo und unser Code sind unter https://audioldm.github.io/audioldm2
verfügbar.
English
Although audio generation shares commonalities across different types of
audio, such as speech, music, and sound effects, designing models for each type
requires careful consideration of specific objectives and biases that can
significantly differ from those of other types. To bring us closer to a unified
perspective of audio generation, this paper proposes a framework that utilizes
the same learning method for speech, music, and sound effect generation. Our
framework introduces a general representation of audio, called language of
audio (LOA). Any audio can be translated into LOA based on AudioMAE, a
self-supervised pre-trained representation learning model. In the generation
process, we translate any modalities into LOA by using a GPT-2 model, and we
perform self-supervised audio generation learning with a latent diffusion model
conditioned on LOA. The proposed framework naturally brings advantages such as
in-context learning abilities and reusable self-supervised pretrained AudioMAE
and latent diffusion models. Experiments on the major benchmarks of
text-to-audio, text-to-music, and text-to-speech demonstrate new
state-of-the-art or competitive performance to previous approaches. Our demo
and code are available at https://audioldm.github.io/audioldm2.