AudioX : Transformer à diffusion pour la génération tout-à-audio
AudioX: Diffusion Transformer for Anything-to-Audio Generation
March 13, 2025
Auteurs: Zeyue Tian, Yizhu Jin, Zhaoyang Liu, Ruibin Yuan, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
cs.AI
Résumé
La génération audio et musicale est devenue une tâche cruciale dans de nombreuses applications, mais les approches existantes présentent des limites significatives : elles fonctionnent de manière isolée sans capacités unifiées à travers les modalités, souffrent d'un manque de données d'entraînement multimodales de haute qualité, et peinent à intégrer efficacement des entrées diverses. Dans ce travail, nous proposons AudioX, un modèle unifié de type Diffusion Transformer pour la génération de tout type de contenu audio et musical. Contrairement aux modèles précédents spécifiques à un domaine, AudioX peut générer à la fois des sons généraux et de la musique de haute qualité, tout en offrant un contrôle flexible via le langage naturel et un traitement fluide de diverses modalités incluant le texte, la vidéo, l'image, la musique et l'audio. Son innovation clé réside dans une stratégie d'entraînement masqué multimodal qui masque les entrées à travers les modalités et force le modèle à apprendre à partir de ces entrées masquées, produisant ainsi des représentations robustes et unifiées intermodales. Pour pallier le manque de données, nous avons constitué deux ensembles de données complets : vggsound-caps avec 190 000 descriptions audio basées sur le jeu de données VGGSound, et V2M-caps avec 6 millions de descriptions musicales dérivées du jeu de données V2M. Des expériences approfondies démontrent qu'AudioX non seulement rivalise ou surpasse les modèles spécialisés de pointe, mais offre également une polyvalence remarquable dans la gestion de diverses modalités d'entrée et de tâches de génération au sein d'une architecture unifiée. Le code et les jeux de données seront disponibles à l'adresse suivante : https://zeyuet.github.io/AudioX/
English
Audio and music generation have emerged as crucial tasks in many
applications, yet existing approaches face significant limitations: they
operate in isolation without unified capabilities across modalities, suffer
from scarce high-quality, multi-modal training data, and struggle to
effectively integrate diverse inputs. In this work, we propose AudioX, a
unified Diffusion Transformer model for Anything-to-Audio and Music Generation.
Unlike previous domain-specific models, AudioX can generate both general audio
and music with high quality, while offering flexible natural language control
and seamless processing of various modalities including text, video, image,
music, and audio. Its key innovation is a multi-modal masked training strategy
that masks inputs across modalities and forces the model to learn from masked
inputs, yielding robust and unified cross-modal representations. To address
data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K
audio captions based on the VGGSound dataset, and V2M-caps with 6 million music
captions derived from the V2M dataset. Extensive experiments demonstrate that
AudioX not only matches or outperforms state-of-the-art specialized models, but
also offers remarkable versatility in handling diverse input modalities and
generation tasks within a unified architecture. The code and datasets will be
available at https://zeyuet.github.io/AudioX/Summary
AI-Generated Summary