ChatPaper.aiChatPaper

Generación de Audio a partir de Texto Aumentada con Recuperación

Retrieval-Augmented Text-to-Audio Generation

September 14, 2023
Autores: Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang
cs.AI

Resumen

A pesar de los avances recientes en la generación de texto a audio (TTA), demostramos que los modelos de última generación, como AudioLDM, entrenados en conjuntos de datos con una distribución de clases desequilibrada, como AudioCaps, presentan sesgos en su rendimiento de generación. Específicamente, sobresalen en la generación de clases de audio comunes, mientras que tienen un desempeño inferior en las clases raras, lo que degrada el rendimiento general de la generación. Nos referimos a este problema como generación de texto a audio de cola larga. Para abordar esta cuestión, proponemos un enfoque simple basado en recuperación aumentada para modelos TTA. En concreto, dado un texto de entrada, primero aprovechamos un modelo de preentrenamiento de lenguaje y audio contrastivo (CLAP) para recuperar pares de texto-audio relevantes. Las características de los datos de audio-texto recuperados se utilizan luego como condiciones adicionales para guiar el aprendizaje de los modelos TTA. Mejoramos AudioLDM con nuestro enfoque propuesto y denominamos al sistema aumentado resultante como Re-AudioLDM. En el conjunto de datos AudioCaps, Re-AudioLDM alcanza una distancia de Frechet de audio (FAD) de última generación de 1.37, superando ampliamente a los enfoques existentes. Además, demostramos que Re-AudioLDM puede generar audio realista para escenas complejas, clases de audio raras e incluso tipos de audio no vistos, lo que indica su potencial en tareas de TTA.
English
Despite recent progress in text-to-audio (TTA) generation, we show that the state-of-the-art models, such as AudioLDM, trained on datasets with an imbalanced class distribution, such as AudioCaps, are biased in their generation performance. Specifically, they excel in generating common audio classes while underperforming in the rare ones, thus degrading the overall generation performance. We refer to this problem as long-tailed text-to-audio generation. To address this issue, we propose a simple retrieval-augmented approach for TTA models. Specifically, given an input text prompt, we first leverage a Contrastive Language Audio Pretraining (CLAP) model to retrieve relevant text-audio pairs. The features of the retrieved audio-text data are then used as additional conditions to guide the learning of TTA models. We enhance AudioLDM with our proposed approach and denote the resulting augmented system as Re-AudioLDM. On the AudioCaps dataset, Re-AudioLDM achieves a state-of-the-art Frechet Audio Distance (FAD) of 1.37, outperforming the existing approaches by a large margin. Furthermore, we show that Re-AudioLDM can generate realistic audio for complex scenes, rare audio classes, and even unseen audio types, indicating its potential in TTA tasks.
PDF70December 15, 2024