AudioX: 오디오 생성 전용 디퓨전 트랜스포머
AudioX: Diffusion Transformer for Anything-to-Audio Generation
March 13, 2025
저자: Zeyue Tian, Yizhu Jin, Zhaoyang Liu, Ruibin Yuan, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
cs.AI
초록
오디오와 음악 생성은 많은 애플리케이션에서 중요한 과제로 부상했지만, 기존 접근 방식은 상당한 한계를 가지고 있습니다: 이들은 모달리티 간 통합된 능력 없이 고립적으로 작동하며, 고품질의 다중 모달 학습 데이터가 부족하고, 다양한 입력을 효과적으로 통합하는 데 어려움을 겪습니다. 본 연구에서는 Anything-to-Audio 및 음악 생성을 위한 통합 Diffusion Transformer 모델인 AudioX를 제안합니다. 이전의 도메인 특화 모델과 달리, AudioX는 일반 오디오와 음악 모두를 고품질로 생성할 수 있으며, 텍스트, 비디오, 이미지, 음악, 오디오를 포함한 다양한 모달리티를 유연하게 제어하고 원활하게 처리할 수 있습니다. 이 모델의 핵심 혁신은 다중 모달 마스크 훈련 전략으로, 모달리티 간 입력을 마스킹하고 모델이 마스크된 입력에서 학습하도록 강제하여 강력하고 통합된 교차 모달 표현을 얻습니다. 데이터 부족 문제를 해결하기 위해, 우리는 VGGSound 데이터셋을 기반으로 한 19만 개의 오디오 캡션을 포함한 vggsound-caps와 V2M 데이터셋에서 파생된 600만 개의 음악 캡션을 포함한 V2M-caps라는 두 가지 포괄적인 데이터셋을 구축했습니다. 광범위한 실험을 통해 AudioX는 최신 특화 모델과 견줄 만하거나 이를 능가할 뿐만 아니라, 통합된 아키텍처 내에서 다양한 입력 모달리티와 생성 작업을 처리하는 데 있어 놀라운 다재다능성을 제공함을 입증했습니다. 코드와 데이터셋은 https://zeyuet.github.io/AudioX/에서 공개될 예정입니다.
English
Audio and music generation have emerged as crucial tasks in many
applications, yet existing approaches face significant limitations: they
operate in isolation without unified capabilities across modalities, suffer
from scarce high-quality, multi-modal training data, and struggle to
effectively integrate diverse inputs. In this work, we propose AudioX, a
unified Diffusion Transformer model for Anything-to-Audio and Music Generation.
Unlike previous domain-specific models, AudioX can generate both general audio
and music with high quality, while offering flexible natural language control
and seamless processing of various modalities including text, video, image,
music, and audio. Its key innovation is a multi-modal masked training strategy
that masks inputs across modalities and forces the model to learn from masked
inputs, yielding robust and unified cross-modal representations. To address
data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K
audio captions based on the VGGSound dataset, and V2M-caps with 6 million music
captions derived from the V2M dataset. Extensive experiments demonstrate that
AudioX not only matches or outperforms state-of-the-art specialized models, but
also offers remarkable versatility in handling diverse input modalities and
generation tasks within a unified architecture. The code and datasets will be
available at https://zeyuet.github.io/AudioX/Summary
AI-Generated Summary