ChatPaper.aiChatPaper

AudioX: Transformador de Difusão para Geração de Qualquer Coisa para Áudio

AudioX: Diffusion Transformer for Anything-to-Audio Generation

March 13, 2025
Autores: Zeyue Tian, Yizhu Jin, Zhaoyang Liu, Ruibin Yuan, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
cs.AI

Resumo

A geração de áudio e música emergiu como uma tarefa crucial em muitas aplicações, mas as abordagens existentes enfrentam limitações significativas: elas operam de forma isolada sem capacidades unificadas entre modalidades, sofrem com a escassez de dados de treinamento multimodais de alta qualidade e lutam para integrar efetivamente entradas diversas. Neste trabalho, propomos o AudioX, um modelo unificado de Transformador de Difusão para Geração de Qualquer Coisa para Áudio e Música. Diferente de modelos anteriores específicos de domínio, o AudioX pode gerar tanto áudio geral quanto música com alta qualidade, ao mesmo tempo que oferece controle flexível por linguagem natural e processamento contínuo de várias modalidades, incluindo texto, vídeo, imagem, música e áudio. Sua principal inovação é uma estratégia de treinamento mascarado multimodal que mascara entradas entre modalidades e força o modelo a aprender a partir de entradas mascaradas, resultando em representações robustas e unificadas entre modalidades. Para lidar com a escassez de dados, organizamos dois conjuntos de dados abrangentes: vggsound-caps, com 190 mil legendas de áudio baseadas no conjunto de dados VGGSound, e V2M-caps, com 6 milhões de legendas de música derivadas do conjunto de dados V2M. Experimentos extensivos demonstram que o AudioX não apenas iguala ou supera os modelos especializados de última geração, mas também oferece uma versatilidade notável no tratamento de diversas modalidades de entrada e tarefas de geração dentro de uma arquitetura unificada. O código e os conjuntos de dados estarão disponíveis em https://zeyuet.github.io/AudioX/.
English
Audio and music generation have emerged as crucial tasks in many applications, yet existing approaches face significant limitations: they operate in isolation without unified capabilities across modalities, suffer from scarce high-quality, multi-modal training data, and struggle to effectively integrate diverse inputs. In this work, we propose AudioX, a unified Diffusion Transformer model for Anything-to-Audio and Music Generation. Unlike previous domain-specific models, AudioX can generate both general audio and music with high quality, while offering flexible natural language control and seamless processing of various modalities including text, video, image, music, and audio. Its key innovation is a multi-modal masked training strategy that masks inputs across modalities and forces the model to learn from masked inputs, yielding robust and unified cross-modal representations. To address data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K audio captions based on the VGGSound dataset, and V2M-caps with 6 million music captions derived from the V2M dataset. Extensive experiments demonstrate that AudioX not only matches or outperforms state-of-the-art specialized models, but also offers remarkable versatility in handling diverse input modalities and generation tasks within a unified architecture. The code and datasets will be available at https://zeyuet.github.io/AudioX/

Summary

AI-Generated Summary

PDF252March 19, 2025