ChatPaper.aiChatPaper

AudioX: Diffusion Transformer für die Alles-zu-Audio-Generierung

AudioX: Diffusion Transformer for Anything-to-Audio Generation

March 13, 2025
Autoren: Zeyue Tian, Yizhu Jin, Zhaoyang Liu, Ruibin Yuan, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo
cs.AI

Zusammenfassung

Die Erzeugung von Audio und Musik hat sich als entscheidende Aufgabe in vielen Anwendungen herauskristallisiert, doch bestehende Ansätze stoßen auf erhebliche Einschränkungen: Sie arbeiten isoliert ohne einheitliche Fähigkeiten über verschiedene Modalitäten hinweg, leiden unter einem Mangel an hochwertigen, multimodalen Trainingsdaten und haben Schwierigkeiten, diverse Eingaben effektiv zu integrieren. In dieser Arbeit stellen wir AudioX vor, ein einheitliches Diffusion-Transformer-Modell für Anything-to-Audio und Musikgenerierung. Im Gegensatz zu früheren domänenspezifischen Modellen kann AudioX sowohl allgemeine Audiodateien als auch Musik in hoher Qualität erzeugen und bietet dabei flexible Steuerung über natürliche Sprache sowie nahtlose Verarbeitung verschiedener Modalitäten, einschließlich Text, Video, Bild, Musik und Audio. Die zentrale Innovation besteht in einer multimodalen Maskierungstrainingsstrategie, die Eingaben über verschiedene Modalitäten hinweg maskiert und das Modell zwingt, aus maskierten Eingaben zu lernen, wodurch robuste und einheitliche cross-modale Repräsentationen entstehen. Um den Datenmangel zu beheben, haben wir zwei umfassende Datensätze zusammengestellt: vggsound-caps mit 190.000 Audio-Beschreibungen basierend auf dem VGGSound-Datensatz und V2M-caps mit 6 Millionen Musikbeschreibungen, die aus dem V2M-Datensatz abgeleitet wurden. Umfangreiche Experimente zeigen, dass AudioX nicht nur mit state-of-the-art spezialisierten Modellen mithalten oder diese übertreffen kann, sondern auch eine bemerkenswerte Vielseitigkeit bei der Handhabung verschiedener Eingabemodalitäten und Generierungsaufgaben innerhalb einer einheitlichen Architektur bietet. Der Code und die Datensätze werden unter https://zeyuet.github.io/AudioX/ verfügbar sein.
English
Audio and music generation have emerged as crucial tasks in many applications, yet existing approaches face significant limitations: they operate in isolation without unified capabilities across modalities, suffer from scarce high-quality, multi-modal training data, and struggle to effectively integrate diverse inputs. In this work, we propose AudioX, a unified Diffusion Transformer model for Anything-to-Audio and Music Generation. Unlike previous domain-specific models, AudioX can generate both general audio and music with high quality, while offering flexible natural language control and seamless processing of various modalities including text, video, image, music, and audio. Its key innovation is a multi-modal masked training strategy that masks inputs across modalities and forces the model to learn from masked inputs, yielding robust and unified cross-modal representations. To address data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K audio captions based on the VGGSound dataset, and V2M-caps with 6 million music captions derived from the V2M dataset. Extensive experiments demonstrate that AudioX not only matches or outperforms state-of-the-art specialized models, but also offers remarkable versatility in handling diverse input modalities and generation tasks within a unified architecture. The code and datasets will be available at https://zeyuet.github.io/AudioX/

Summary

AI-Generated Summary

PDF252March 19, 2025