ChatPaper.aiChatPaper

Retrieval-augmentierte Text-zu-Audio-Generierung

Retrieval-Augmented Text-to-Audio Generation

September 14, 2023
Autoren: Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang
cs.AI

Zusammenfassung

Trotz der jüngsten Fortschritte in der Text-zu-Audio (TTA)-Generierung zeigen wir, dass die modernsten Modelle, wie AudioLDM, die auf Datensätzen mit einer unausgewogenen Klassenverteilung, wie AudioCaps, trainiert wurden, in ihrer Generierungsleistung voreingenommen sind. Insbesondere übertreffen sie sich bei der Generierung gängiger Audioklassen, während sie bei seltenen Klassen schlechter abschneiden, was die Gesamtgenerierungsleistung beeinträchtigt. Wir bezeichnen dieses Problem als langschwänzige Text-zu-Audio-Generierung. Um dieses Problem zu lösen, schlagen wir einen einfachen, retrieval-augmentierten Ansatz für TTA-Modelle vor. Konkret nutzen wir bei einem gegebenen Eingabetextprompt zunächst ein Contrastive Language Audio Pretraining (CLAP)-Modell, um relevante Text-Audio-Paare abzurufen. Die Merkmale der abgerufenen Audio-Text-Daten werden dann als zusätzliche Bedingungen verwendet, um das Lernen der TTA-Modelle zu steuern. Wir erweitern AudioLDM mit unserem vorgeschlagenen Ansatz und bezeichnen das resultierende augmentierte System als Re-AudioLDM. Auf dem AudioCaps-Datensatz erreicht Re-AudioLDM einen state-of-the-art Frechet Audio Distance (FAD)-Wert von 1,37 und übertrifft damit die bestehenden Ansätze deutlich. Darüber hinaus zeigen wir, dass Re-AudioLDM realistische Audios für komplexe Szenen, seltene Audioklassen und sogar ungesehene Audiotypen generieren kann, was sein Potenzial in TTA-Aufgaben unterstreicht.
English
Despite recent progress in text-to-audio (TTA) generation, we show that the state-of-the-art models, such as AudioLDM, trained on datasets with an imbalanced class distribution, such as AudioCaps, are biased in their generation performance. Specifically, they excel in generating common audio classes while underperforming in the rare ones, thus degrading the overall generation performance. We refer to this problem as long-tailed text-to-audio generation. To address this issue, we propose a simple retrieval-augmented approach for TTA models. Specifically, given an input text prompt, we first leverage a Contrastive Language Audio Pretraining (CLAP) model to retrieve relevant text-audio pairs. The features of the retrieved audio-text data are then used as additional conditions to guide the learning of TTA models. We enhance AudioLDM with our proposed approach and denote the resulting augmented system as Re-AudioLDM. On the AudioCaps dataset, Re-AudioLDM achieves a state-of-the-art Frechet Audio Distance (FAD) of 1.37, outperforming the existing approaches by a large margin. Furthermore, we show that Re-AudioLDM can generate realistic audio for complex scenes, rare audio classes, and even unseen audio types, indicating its potential in TTA tasks.
PDF70December 15, 2024