ChatPaper.aiChatPaper

AudioX: Trasformatore a Diffusione per la Generazione da Qualsiasi Input ad Audio

AudioX: Diffusion Transformer for Anything-to-Audio Generation

March 13, 2025
Autori: Zeyue Tian, Yizhu Jin, Zhaoyang Liu, Ruibin Yuan, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
cs.AI

Abstract

La generazione di audio e musica è emersa come un compito cruciale in molte applicazioni, tuttavia gli approcci esistenti presentano significative limitazioni: operano in isolamento senza capacità unificate tra le modalità, soffrono di una scarsità di dati di addestramento multimodali di alta qualità e faticano a integrare efficacemente input diversi. In questo lavoro, proponiamo AudioX, un modello unificato di Diffusion Transformer per la generazione di Anything-to-Audio e musica. A differenza dei precedenti modelli specifici per dominio, AudioX può generare sia audio generico che musica di alta qualità, offrendo al contempo un controllo flessibile tramite linguaggio naturale e un'elaborazione senza soluzione di continuità di varie modalità, tra cui testo, video, immagini, musica e audio. La sua innovazione chiave è una strategia di addestramento multimodale mascherato che maschera gli input tra le modalità e costringe il modello a imparare da input mascherati, producendo rappresentazioni robuste e unificate cross-modali. Per affrontare la scarsità di dati, abbiamo curato due dataset completi: vggsound-caps con 190K didascalie audio basate sul dataset VGGSound, e V2M-caps con 6 milioni di didascalie musicali derivate dal dataset V2M. Esperimenti estensivi dimostrano che AudioX non solo eguaglia o supera i modelli specializzati all'avanguardia, ma offre anche una notevole versatilità nella gestione di diverse modalità di input e compiti di generazione all'interno di un'architettura unificata. Il codice e i dataset saranno disponibili su https://zeyuet.github.io/AudioX/.
English
Audio and music generation have emerged as crucial tasks in many applications, yet existing approaches face significant limitations: they operate in isolation without unified capabilities across modalities, suffer from scarce high-quality, multi-modal training data, and struggle to effectively integrate diverse inputs. In this work, we propose AudioX, a unified Diffusion Transformer model for Anything-to-Audio and Music Generation. Unlike previous domain-specific models, AudioX can generate both general audio and music with high quality, while offering flexible natural language control and seamless processing of various modalities including text, video, image, music, and audio. Its key innovation is a multi-modal masked training strategy that masks inputs across modalities and forces the model to learn from masked inputs, yielding robust and unified cross-modal representations. To address data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K audio captions based on the VGGSound dataset, and V2M-caps with 6 million music captions derived from the V2M dataset. Extensive experiments demonstrate that AudioX not only matches or outperforms state-of-the-art specialized models, but also offers remarkable versatility in handling diverse input modalities and generation tasks within a unified architecture. The code and datasets will be available at https://zeyuet.github.io/AudioX/

Summary

AI-Generated Summary

PDF262March 19, 2025