Génération de texte-à-audio assistée par recherche
Retrieval-Augmented Text-to-Audio Generation
September 14, 2023
Auteurs: Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang
cs.AI
Résumé
Malgré les progrès récents dans la génération texte-audio (TTA), nous montrons que les modèles de pointe, tels qu'AudioLDM, entraînés sur des ensembles de données présentant une distribution de classes déséquilibrée, comme AudioCaps, présentent des biais dans leurs performances de génération. Plus précisément, ils excellent dans la génération de classes audio courantes tout en sous-performant pour les classes rares, ce qui dégrade la performance globale de génération. Nous qualifions ce problème de génération texte-audio à longue traîne. Pour résoudre cette problématique, nous proposons une approche simple basée sur la récupération d'informations pour les modèles TTA. Concrètement, étant donné une invite textuelle en entrée, nous exploitons d'abord un modèle de pré-entraînement contrastif langue-audio (CLAP) pour récupérer des paires texte-audio pertinentes. Les caractéristiques des données audio-texte récupérées sont ensuite utilisées comme conditions supplémentaires pour guider l'apprentissage des modèles TTA. Nous améliorons AudioLDM avec notre approche proposée et désignons le système augmenté résultant sous le nom de Re-AudioLDM. Sur le jeu de données AudioCaps, Re-AudioLDM atteint une distance de Fréchet audio (FAD) de pointe de 1,37, surpassant largement les approches existantes. De plus, nous montrons que Re-AudioLDM peut générer des audios réalistes pour des scènes complexes, des classes audio rares, et même des types audio inédits, démontrant ainsi son potentiel dans les tâches TTA.
English
Despite recent progress in text-to-audio (TTA) generation, we show that the
state-of-the-art models, such as AudioLDM, trained on datasets with an
imbalanced class distribution, such as AudioCaps, are biased in their
generation performance. Specifically, they excel in generating common audio
classes while underperforming in the rare ones, thus degrading the overall
generation performance. We refer to this problem as long-tailed text-to-audio
generation. To address this issue, we propose a simple retrieval-augmented
approach for TTA models. Specifically, given an input text prompt, we first
leverage a Contrastive Language Audio Pretraining (CLAP) model to retrieve
relevant text-audio pairs. The features of the retrieved audio-text data are
then used as additional conditions to guide the learning of TTA models. We
enhance AudioLDM with our proposed approach and denote the resulting augmented
system as Re-AudioLDM. On the AudioCaps dataset, Re-AudioLDM achieves a
state-of-the-art Frechet Audio Distance (FAD) of 1.37, outperforming the
existing approaches by a large margin. Furthermore, we show that Re-AudioLDM
can generate realistic audio for complex scenes, rare audio classes, and even
unseen audio types, indicating its potential in TTA tasks.