AudioX: Diffusie Transformer voor Alles-naar-Audio Generatie
AudioX: Diffusion Transformer for Anything-to-Audio Generation
March 13, 2025
Auteurs: Zeyue Tian, Yizhu Jin, Zhaoyang Liu, Ruibin Yuan, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
cs.AI
Samenvatting
Audio- en muziekgeneratie zijn uitgegroeid tot cruciale taken in veel toepassingen, maar bestaande benaderingen kampen met aanzienlijke beperkingen: ze werken geïsoleerd zonder geïntegreerde mogelijkheden over verschillende modaliteiten, lijden onder een gebrek aan hoogwaardige, multimodale trainingsdata, en hebben moeite om diverse invoeren effectief te integreren. In dit werk presenteren we AudioX, een geïntegreerd Diffusion Transformer-model voor Anything-to-Audio en Muziekgeneratie. In tegenstelling tot eerdere domeinspecifieke modellen, kan AudioX zowel algemene audio als muziek van hoge kwaliteit genereren, terwijl het flexibele natuurlijke taalcontrole en naadloze verwerking van verschillende modaliteiten biedt, waaronder tekst, video, afbeeldingen, muziek en audio. De belangrijkste innovatie is een multimodale gemaskeerde trainingsstrategie die invoeren over verschillende modaliteiten maskeert en het model dwingt te leren van gemaskeerde invoeren, wat resulteert in robuuste en geïntegreerde cross-modale representaties. Om het gebrek aan data aan te pakken, hebben we twee uitgebreide datasets samengesteld: vggsound-caps met 190K audiobijschriften gebaseerd op de VGGSound-dataset, en V2M-caps met 6 miljoen muziekbijschriften afgeleid van de V2M-dataset. Uitgebreide experimenten tonen aan dat AudioX niet alleen gelijkwaardig is aan of beter presteert dan state-of-the-art gespecialiseerde modellen, maar ook opmerkelijke veelzijdigheid biedt in het omgaan met diverse invoermodaliteiten en generatietaken binnen een geïntegreerde architectuur. De code en datasets zullen beschikbaar zijn op https://zeyuet.github.io/AudioX/.
English
Audio and music generation have emerged as crucial tasks in many
applications, yet existing approaches face significant limitations: they
operate in isolation without unified capabilities across modalities, suffer
from scarce high-quality, multi-modal training data, and struggle to
effectively integrate diverse inputs. In this work, we propose AudioX, a
unified Diffusion Transformer model for Anything-to-Audio and Music Generation.
Unlike previous domain-specific models, AudioX can generate both general audio
and music with high quality, while offering flexible natural language control
and seamless processing of various modalities including text, video, image,
music, and audio. Its key innovation is a multi-modal masked training strategy
that masks inputs across modalities and forces the model to learn from masked
inputs, yielding robust and unified cross-modal representations. To address
data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K
audio captions based on the VGGSound dataset, and V2M-caps with 6 million music
captions derived from the V2M dataset. Extensive experiments demonstrate that
AudioX not only matches or outperforms state-of-the-art specialized models, but
also offers remarkable versatility in handling diverse input modalities and
generation tasks within a unified architecture. The code and datasets will be
available at https://zeyuet.github.io/AudioX/Summary
AI-Generated Summary