ChatPaper.aiChatPaper

Génération de texte-à-audio assistée par recherche

Retrieval-Augmented Text-to-Audio Generation

September 14, 2023
Auteurs: Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang
cs.AI

Résumé

Malgré les progrès récents dans la génération texte-audio (TTA), nous montrons que les modèles de pointe, tels qu'AudioLDM, entraînés sur des ensembles de données présentant une distribution de classes déséquilibrée, comme AudioCaps, présentent des biais dans leurs performances de génération. Plus précisément, ils excellent dans la génération de classes audio courantes tout en sous-performant pour les classes rares, ce qui dégrade la performance globale de génération. Nous qualifions ce problème de génération texte-audio à longue traîne. Pour résoudre cette problématique, nous proposons une approche simple basée sur la récupération d'informations pour les modèles TTA. Concrètement, étant donné une invite textuelle en entrée, nous exploitons d'abord un modèle de pré-entraînement contrastif langue-audio (CLAP) pour récupérer des paires texte-audio pertinentes. Les caractéristiques des données audio-texte récupérées sont ensuite utilisées comme conditions supplémentaires pour guider l'apprentissage des modèles TTA. Nous améliorons AudioLDM avec notre approche proposée et désignons le système augmenté résultant sous le nom de Re-AudioLDM. Sur le jeu de données AudioCaps, Re-AudioLDM atteint une distance de Fréchet audio (FAD) de pointe de 1,37, surpassant largement les approches existantes. De plus, nous montrons que Re-AudioLDM peut générer des audios réalistes pour des scènes complexes, des classes audio rares, et même des types audio inédits, démontrant ainsi son potentiel dans les tâches TTA.
English
Despite recent progress in text-to-audio (TTA) generation, we show that the state-of-the-art models, such as AudioLDM, trained on datasets with an imbalanced class distribution, such as AudioCaps, are biased in their generation performance. Specifically, they excel in generating common audio classes while underperforming in the rare ones, thus degrading the overall generation performance. We refer to this problem as long-tailed text-to-audio generation. To address this issue, we propose a simple retrieval-augmented approach for TTA models. Specifically, given an input text prompt, we first leverage a Contrastive Language Audio Pretraining (CLAP) model to retrieve relevant text-audio pairs. The features of the retrieved audio-text data are then used as additional conditions to guide the learning of TTA models. We enhance AudioLDM with our proposed approach and denote the resulting augmented system as Re-AudioLDM. On the AudioCaps dataset, Re-AudioLDM achieves a state-of-the-art Frechet Audio Distance (FAD) of 1.37, outperforming the existing approaches by a large margin. Furthermore, we show that Re-AudioLDM can generate realistic audio for complex scenes, rare audio classes, and even unseen audio types, indicating its potential in TTA tasks.
PDF70December 15, 2024