Make-An-Audio 2: Generazione Testo-Audio con Miglioramenti Temporali

Abstract

I grandi modelli di diffusione hanno avuto successo nei compiti di sintesi da testo ad audio (T2A), ma spesso soffrono di problemi comuni come il disallineamento semantico e la scarsa coerenza temporale a causa di una comprensione limitata del linguaggio naturale e della scarsità di dati. Inoltre, le strutture spaziali 2D ampiamente utilizzate nei lavori T2A portano a una qualità audio insoddisfacente quando si generano campioni audio di lunghezza variabile, poiché non danno priorità adeguata alle informazioni temporali. Per affrontare queste sfide, proponiamo Make-an-Audio 2, un metodo T2A basato sulla diffusione latente che si basa sul successo di Make-an-Audio. Il nostro approccio include diverse tecniche per migliorare l'allineamento semantico e la coerenza temporale: in primo luogo, utilizziamo modelli linguistici pre-addestrati (LLM) per analizzare il testo in coppie strutturate <evento & ordine> per una migliore cattura delle informazioni temporali. Introduciamo anche un altro codificatore di testo strutturato per aiutare nell'apprendimento dell'allineamento semantico durante il processo di denoising della diffusione. Per migliorare le prestazioni della generazione di lunghezza variabile e potenziare l'estrazione delle informazioni temporali, progettiamo un denoiser di diffusione basato su Transformer feed-forward. Infine, utilizziamo gli LLM per aumentare e trasformare una grande quantità di dati audio-label in dataset audio-testo per alleviare il problema della scarsità di dati temporali. Esperimenti estensivi dimostrano che il nostro metodo supera i modelli di riferimento sia nelle metriche oggettive che soggettive, e ottiene guadagni significativi nella comprensione delle informazioni temporali, nella coerenza semantica e nella qualità del suono.

English

Large diffusion models have been successful in text-to-audio (T2A) synthesis tasks, but they often suffer from common issues such as semantic misalignment and poor temporal consistency due to limited natural language understanding and data scarcity. Additionally, 2D spatial structures widely used in T2A works lead to unsatisfactory audio quality when generating variable-length audio samples since they do not adequately prioritize temporal information. To address these challenges, we propose Make-an-Audio 2, a latent diffusion-based T2A method that builds on the success of Make-an-Audio. Our approach includes several techniques to improve semantic alignment and temporal consistency: Firstly, we use pre-trained large language models (LLMs) to parse the text into structured <event & order> pairs for better temporal information capture. We also introduce another structured-text encoder to aid in learning semantic alignment during the diffusion denoising process. To improve the performance of variable length generation and enhance the temporal information extraction, we design a feed-forward Transformer-based diffusion denoiser. Finally, we use LLMs to augment and transform a large amount of audio-label data into audio-text datasets to alleviate the problem of scarcity of temporal data. Extensive experiments show that our method outperforms baseline models in both objective and subjective metrics, and achieves significant gains in temporal information understanding, semantic consistency, and sound quality.

Make-An-Audio 2: Generazione Testo-Audio con Miglioramenti Temporali

Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation

Abstract

Support