Retrieval-augmented Text-to-Audio Generatie

Samenvatting

Ondanks recente vooruitgang in tekst-naar-audio (TTA) generatie, laten we zien dat de state-of-the-art modellen, zoals AudioLDM, die getraind zijn op datasets met een ongelijke klasseverdeling, zoals AudioCaps, bevooroordeeld zijn in hun generatieprestaties. Specifiek blinken ze uit in het genereren van veelvoorkomende audioclassen, maar presteren ze slechter bij de zeldzame, wat de algehele generatieprestatie aantast. We verwijzen naar dit probleem als langstaart tekst-naar-audio generatie. Om dit probleem aan te pakken, stellen we een eenvoudige retrieval-augmented benadering voor TTA-modellen voor. Specifiek gebruiken we, gegeven een invoertekstprompt, eerst een Contrastive Language Audio Pretraining (CLAP) model om relevante tekst-audio paren op te halen. De kenmerken van de opgehaalde audio-tekstgegevens worden vervolgens gebruikt als aanvullende voorwaarden om het leren van TTA-modellen te begeleiden. We verbeteren AudioLDM met onze voorgestelde aanpak en duiden het resulterende uitgebreide systeem aan als Re-AudioLDM. Op de AudioCaps dataset behaalt Re-AudioLDM een state-of-the-art Frechet Audio Distance (FAD) van 1.37, wat de bestaande benaderingen met een grote marge overtreft. Bovendien laten we zien dat Re-AudioLDM realistische audio kan genereren voor complexe scènes, zeldzame audioclassen en zelfs onbekende audiotypes, wat zijn potentieel in TTA-taken aangeeft.

English

Despite recent progress in text-to-audio (TTA) generation, we show that the state-of-the-art models, such as AudioLDM, trained on datasets with an imbalanced class distribution, such as AudioCaps, are biased in their generation performance. Specifically, they excel in generating common audio classes while underperforming in the rare ones, thus degrading the overall generation performance. We refer to this problem as long-tailed text-to-audio generation. To address this issue, we propose a simple retrieval-augmented approach for TTA models. Specifically, given an input text prompt, we first leverage a Contrastive Language Audio Pretraining (CLAP) model to retrieve relevant text-audio pairs. The features of the retrieved audio-text data are then used as additional conditions to guide the learning of TTA models. We enhance AudioLDM with our proposed approach and denote the resulting augmented system as Re-AudioLDM. On the AudioCaps dataset, Re-AudioLDM achieves a state-of-the-art Frechet Audio Distance (FAD) of 1.37, outperforming the existing approaches by a large margin. Furthermore, we show that Re-AudioLDM can generate realistic audio for complex scenes, rare audio classes, and even unseen audio types, indicating its potential in TTA tasks.

Retrieval-augmented Text-to-Audio Generatie

Retrieval-Augmented Text-to-Audio Generation

Samenvatting

Support