ChatPaper.aiChatPaper

AudioX: Transformador de Difusión para la Generación de Cualquier cosa a Audio

AudioX: Diffusion Transformer for Anything-to-Audio Generation

March 13, 2025
Autores: Zeyue Tian, Yizhu Jin, Zhaoyang Liu, Ruibin Yuan, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
cs.AI

Resumen

La generación de audio y música ha surgido como una tarea crucial en muchas aplicaciones, sin embargo, los enfoques existentes enfrentan limitaciones significativas: operan de manera aislada sin capacidades unificadas entre modalidades, sufren de escasez de datos de entrenamiento multimodal de alta calidad y luchan por integrar de manera efectiva entradas diversas. En este trabajo, proponemos AudioX, un modelo unificado de Transformador de Difusión para la Generación de Cualquier cosa a Audio y Música. A diferencia de los modelos anteriores específicos de dominio, AudioX puede generar tanto audio general como música con alta calidad, mientras ofrece un control flexible mediante lenguaje natural y un procesamiento fluido de varias modalidades, incluyendo texto, video, imagen, música y audio. Su innovación clave es una estrategia de entrenamiento multimodal enmascarado que oculta entradas entre modalidades y obliga al modelo a aprender a partir de entradas enmascaradas, obteniendo representaciones robustas y unificadas entre modalidades. Para abordar la escasez de datos, hemos creado dos conjuntos de datos exhaustivos: vggsound-caps con 190K descripciones de audio basadas en el conjunto de datos VGGSound, y V2M-caps con 6 millones de descripciones de música derivadas del conjunto de datos V2M. Experimentos extensos demuestran que AudioX no solo iguala o supera a los modelos especializados de última generación, sino que también ofrece una versatilidad notable al manejar diversas modalidades de entrada y tareas de generación dentro de una arquitectura unificada. El código y los conjuntos de datos estarán disponibles en https://zeyuet.github.io/AudioX/.
English
Audio and music generation have emerged as crucial tasks in many applications, yet existing approaches face significant limitations: they operate in isolation without unified capabilities across modalities, suffer from scarce high-quality, multi-modal training data, and struggle to effectively integrate diverse inputs. In this work, we propose AudioX, a unified Diffusion Transformer model for Anything-to-Audio and Music Generation. Unlike previous domain-specific models, AudioX can generate both general audio and music with high quality, while offering flexible natural language control and seamless processing of various modalities including text, video, image, music, and audio. Its key innovation is a multi-modal masked training strategy that masks inputs across modalities and forces the model to learn from masked inputs, yielding robust and unified cross-modal representations. To address data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K audio captions based on the VGGSound dataset, and V2M-caps with 6 million music captions derived from the V2M dataset. Extensive experiments demonstrate that AudioX not only matches or outperforms state-of-the-art specialized models, but also offers remarkable versatility in handling diverse input modalities and generation tasks within a unified architecture. The code and datasets will be available at https://zeyuet.github.io/AudioX/

Summary

AI-Generated Summary

PDF252March 19, 2025