Retrieval-augmented Text-to-Audio Generatie
Retrieval-Augmented Text-to-Audio Generation
September 14, 2023
Auteurs: Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang
cs.AI
Samenvatting
Ondanks recente vooruitgang in tekst-naar-audio (TTA) generatie, laten we zien dat de state-of-the-art modellen, zoals AudioLDM, die getraind zijn op datasets met een ongelijke klasseverdeling, zoals AudioCaps, bevooroordeeld zijn in hun generatieprestaties. Specifiek blinken ze uit in het genereren van veelvoorkomende audioclassen, maar presteren ze slechter bij de zeldzame, wat de algehele generatieprestatie aantast. We verwijzen naar dit probleem als langstaart tekst-naar-audio generatie. Om dit probleem aan te pakken, stellen we een eenvoudige retrieval-augmented benadering voor TTA-modellen voor. Specifiek gebruiken we, gegeven een invoertekstprompt, eerst een Contrastive Language Audio Pretraining (CLAP) model om relevante tekst-audio paren op te halen. De kenmerken van de opgehaalde audio-tekstgegevens worden vervolgens gebruikt als aanvullende voorwaarden om het leren van TTA-modellen te begeleiden. We verbeteren AudioLDM met onze voorgestelde aanpak en duiden het resulterende uitgebreide systeem aan als Re-AudioLDM. Op de AudioCaps dataset behaalt Re-AudioLDM een state-of-the-art Frechet Audio Distance (FAD) van 1.37, wat de bestaande benaderingen met een grote marge overtreft. Bovendien laten we zien dat Re-AudioLDM realistische audio kan genereren voor complexe scènes, zeldzame audioclassen en zelfs onbekende audiotypes, wat zijn potentieel in TTA-taken aangeeft.
English
Despite recent progress in text-to-audio (TTA) generation, we show that the
state-of-the-art models, such as AudioLDM, trained on datasets with an
imbalanced class distribution, such as AudioCaps, are biased in their
generation performance. Specifically, they excel in generating common audio
classes while underperforming in the rare ones, thus degrading the overall
generation performance. We refer to this problem as long-tailed text-to-audio
generation. To address this issue, we propose a simple retrieval-augmented
approach for TTA models. Specifically, given an input text prompt, we first
leverage a Contrastive Language Audio Pretraining (CLAP) model to retrieve
relevant text-audio pairs. The features of the retrieved audio-text data are
then used as additional conditions to guide the learning of TTA models. We
enhance AudioLDM with our proposed approach and denote the resulting augmented
system as Re-AudioLDM. On the AudioCaps dataset, Re-AudioLDM achieves a
state-of-the-art Frechet Audio Distance (FAD) of 1.37, outperforming the
existing approaches by a large margin. Furthermore, we show that Re-AudioLDM
can generate realistic audio for complex scenes, rare audio classes, and even
unseen audio types, indicating its potential in TTA tasks.