ChatPaper.aiChatPaper

Генерация текста в аудио с усилением поиском

Retrieval-Augmented Text-to-Audio Generation

September 14, 2023
Авторы: Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang
cs.AI

Аннотация

Несмотря на недавние успехи в генерации текста в аудио (TTA), мы показываем, что современные модели, такие как AudioLDM, обученные на наборах данных с несбалансированным распределением классов, например AudioCaps, демонстрируют предвзятость в своей генерации. В частности, они преуспевают в создании распространенных аудиоклассов, но хуже справляются с редкими, что снижает общее качество генерации. Мы называем эту проблему генерацией текста в аудио с длинным хвостом. Для решения этой проблемы мы предлагаем простой подход с использованием извлечения данных для моделей TTA. А именно, для заданного текстового запроса мы сначала используем модель Contrastive Language Audio Pretraining (CLAP) для извлечения релевантных пар текст-аудио. Затем характеристики извлеченных аудио-текстовых данных используются в качестве дополнительных условий для обучения моделей TTA. Мы улучшаем AudioLDM с помощью нашего подхода и обозначаем получившуюся расширенную систему как Re-AudioLDM. На наборе данных AudioCaps Re-AudioLDM достигает современного значения Frechet Audio Distance (FAD) в 1.37, значительно превосходя существующие подходы. Более того, мы показываем, что Re-AudioLDM способна генерировать реалистичное аудио для сложных сцен, редких аудиоклассов и даже неизвестных типов аудио, что указывает на её потенциал в задачах TTA.
English
Despite recent progress in text-to-audio (TTA) generation, we show that the state-of-the-art models, such as AudioLDM, trained on datasets with an imbalanced class distribution, such as AudioCaps, are biased in their generation performance. Specifically, they excel in generating common audio classes while underperforming in the rare ones, thus degrading the overall generation performance. We refer to this problem as long-tailed text-to-audio generation. To address this issue, we propose a simple retrieval-augmented approach for TTA models. Specifically, given an input text prompt, we first leverage a Contrastive Language Audio Pretraining (CLAP) model to retrieve relevant text-audio pairs. The features of the retrieved audio-text data are then used as additional conditions to guide the learning of TTA models. We enhance AudioLDM with our proposed approach and denote the resulting augmented system as Re-AudioLDM. On the AudioCaps dataset, Re-AudioLDM achieves a state-of-the-art Frechet Audio Distance (FAD) of 1.37, outperforming the existing approaches by a large margin. Furthermore, we show that Re-AudioLDM can generate realistic audio for complex scenes, rare audio classes, and even unseen audio types, indicating its potential in TTA tasks.
PDF70December 15, 2024