AudioX: Трансформер с диффузией для генерации звука из любых данных
AudioX: Diffusion Transformer for Anything-to-Audio Generation
March 13, 2025
Авторы: Zeyue Tian, Yizhu Jin, Zhaoyang Liu, Ruibin Yuan, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
cs.AI
Аннотация
Генерация аудио и музыки стала важной задачей во многих приложениях, однако существующие подходы сталкиваются с существенными ограничениями: они работают изолированно, не обладая унифицированными возможностями для работы с различными модальностями, страдают от недостатка высококачественных мультимодальных данных для обучения и испытывают трудности с эффективной интеграцией разнообразных входных данных. В данной работе мы представляем AudioX — унифицированную модель на основе Diffusion Transformer для генерации аудио и музыки из любых входных данных. В отличие от предыдущих моделей, ориентированных на конкретные области, AudioX способна генерировать как общее аудио, так и музыку высокого качества, обеспечивая гибкое управление с помощью естественного языка и бесшовную обработку различных модальностей, включая текст, видео, изображения, музыку и аудио. Ключевым нововведением является стратегия мультимодального маскированного обучения, которая маскирует входные данные по всем модальностям и заставляет модель обучаться на маскированных данных, что позволяет получить устойчивые и унифицированные кросс-модальные представления. Для решения проблемы недостатка данных мы подготовили два комплексных набора данных: vggsound-caps, содержащий 190 тысяч аудио-описаний на основе набора данных VGGSound, и V2M-caps, включающий 6 миллионов музыкальных описаний, полученных из набора данных V2M. Многочисленные эксперименты демонстрируют, что AudioX не только соответствует или превосходит современные специализированные модели, но и предлагает выдающуюся универсальность в обработке разнообразных входных модальностей и задач генерации в рамках единой архитектуры. Код и наборы данных будут доступны по адресу https://zeyuet.github.io/AudioX/.
English
Audio and music generation have emerged as crucial tasks in many
applications, yet existing approaches face significant limitations: they
operate in isolation without unified capabilities across modalities, suffer
from scarce high-quality, multi-modal training data, and struggle to
effectively integrate diverse inputs. In this work, we propose AudioX, a
unified Diffusion Transformer model for Anything-to-Audio and Music Generation.
Unlike previous domain-specific models, AudioX can generate both general audio
and music with high quality, while offering flexible natural language control
and seamless processing of various modalities including text, video, image,
music, and audio. Its key innovation is a multi-modal masked training strategy
that masks inputs across modalities and forces the model to learn from masked
inputs, yielding robust and unified cross-modal representations. To address
data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K
audio captions based on the VGGSound dataset, and V2M-caps with 6 million music
captions derived from the V2M dataset. Extensive experiments demonstrate that
AudioX not only matches or outperforms state-of-the-art specialized models, but
also offers remarkable versatility in handling diverse input modalities and
generation tasks within a unified architecture. The code and datasets will be
available at https://zeyuet.github.io/AudioX/Summary
AI-Generated Summary