ChatPaper.aiChatPaper

Make-An-Audio 2: Generación de Audio a partir de Texto con Mejora Temporal

Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation

May 29, 2023
Autores: Jiawei Huang, Yi Ren, Rongjie Huang, Dongchao Yang, Zhenhui Ye, Chen Zhang, Jinglin Liu, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

Resumen

Los grandes modelos de difusión han tenido éxito en tareas de síntesis de texto a audio (T2A), pero a menudo presentan problemas comunes como la desalineación semántica y la inconsistencia temporal debido a una comprensión limitada del lenguaje natural y a la escasez de datos. Además, las estructuras espaciales 2D ampliamente utilizadas en trabajos de T2A resultan en una calidad de audio insatisfactoria al generar muestras de audio de longitud variable, ya que no priorizan adecuadamente la información temporal. Para abordar estos desafíos, proponemos Make-an-Audio 2, un método T2A basado en difusión latente que se basa en el éxito de Make-an-Audio. Nuestro enfoque incluye varias técnicas para mejorar la alineación semántica y la consistencia temporal: En primer lugar, utilizamos modelos de lenguaje grandes (LLMs) preentrenados para analizar el texto en pares estructurados <evento & orden> con el fin de capturar mejor la información temporal. También introducimos otro codificador de texto estructurado para ayudar en el aprendizaje de la alineación semántica durante el proceso de desruido por difusión. Para mejorar el rendimiento en la generación de longitud variable y potenciar la extracción de información temporal, diseñamos un desruidor de difusión basado en un Transformer de avance. Finalmente, utilizamos LLMs para aumentar y transformar una gran cantidad de datos de etiquetas de audio en conjuntos de datos de audio-texto, con el fin de mitigar el problema de la escasez de datos temporales. Experimentos exhaustivos muestran que nuestro método supera a los modelos de referencia tanto en métricas objetivas como subjetivas, y logra avances significativos en la comprensión de la información temporal, la consistencia semántica y la calidad del sonido.
English
Large diffusion models have been successful in text-to-audio (T2A) synthesis tasks, but they often suffer from common issues such as semantic misalignment and poor temporal consistency due to limited natural language understanding and data scarcity. Additionally, 2D spatial structures widely used in T2A works lead to unsatisfactory audio quality when generating variable-length audio samples since they do not adequately prioritize temporal information. To address these challenges, we propose Make-an-Audio 2, a latent diffusion-based T2A method that builds on the success of Make-an-Audio. Our approach includes several techniques to improve semantic alignment and temporal consistency: Firstly, we use pre-trained large language models (LLMs) to parse the text into structured <event & order> pairs for better temporal information capture. We also introduce another structured-text encoder to aid in learning semantic alignment during the diffusion denoising process. To improve the performance of variable length generation and enhance the temporal information extraction, we design a feed-forward Transformer-based diffusion denoiser. Finally, we use LLMs to augment and transform a large amount of audio-label data into audio-text datasets to alleviate the problem of scarcity of temporal data. Extensive experiments show that our method outperforms baseline models in both objective and subjective metrics, and achieves significant gains in temporal information understanding, semantic consistency, and sound quality.
PDF31December 15, 2024