AudioX: Diffusie Transformer voor Alles-naar-Audio Generatie

Samenvatting

Audio- en muziekgeneratie zijn uitgegroeid tot cruciale taken in veel toepassingen, maar bestaande benaderingen kampen met aanzienlijke beperkingen: ze werken geïsoleerd zonder geïntegreerde mogelijkheden over verschillende modaliteiten, lijden onder een gebrek aan hoogwaardige, multimodale trainingsdata, en hebben moeite om diverse invoeren effectief te integreren. In dit werk presenteren we AudioX, een geïntegreerd Diffusion Transformer-model voor Anything-to-Audio en Muziekgeneratie. In tegenstelling tot eerdere domeinspecifieke modellen, kan AudioX zowel algemene audio als muziek van hoge kwaliteit genereren, terwijl het flexibele natuurlijke taalcontrole en naadloze verwerking van verschillende modaliteiten biedt, waaronder tekst, video, afbeeldingen, muziek en audio. De belangrijkste innovatie is een multimodale gemaskeerde trainingsstrategie die invoeren over verschillende modaliteiten maskeert en het model dwingt te leren van gemaskeerde invoeren, wat resulteert in robuuste en geïntegreerde cross-modale representaties. Om het gebrek aan data aan te pakken, hebben we twee uitgebreide datasets samengesteld: vggsound-caps met 190K audiobijschriften gebaseerd op de VGGSound-dataset, en V2M-caps met 6 miljoen muziekbijschriften afgeleid van de V2M-dataset. Uitgebreide experimenten tonen aan dat AudioX niet alleen gelijkwaardig is aan of beter presteert dan state-of-the-art gespecialiseerde modellen, maar ook opmerkelijke veelzijdigheid biedt in het omgaan met diverse invoermodaliteiten en generatietaken binnen een geïntegreerde architectuur. De code en datasets zullen beschikbaar zijn op https://zeyuet.github.io/AudioX/.

English

Audio and music generation have emerged as crucial tasks in many applications, yet existing approaches face significant limitations: they operate in isolation without unified capabilities across modalities, suffer from scarce high-quality, multi-modal training data, and struggle to effectively integrate diverse inputs. In this work, we propose AudioX, a unified Diffusion Transformer model for Anything-to-Audio and Music Generation. Unlike previous domain-specific models, AudioX can generate both general audio and music with high quality, while offering flexible natural language control and seamless processing of various modalities including text, video, image, music, and audio. Its key innovation is a multi-modal masked training strategy that masks inputs across modalities and forces the model to learn from masked inputs, yielding robust and unified cross-modal representations. To address data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K audio captions based on the VGGSound dataset, and V2M-caps with 6 million music captions derived from the V2M dataset. Extensive experiments demonstrate that AudioX not only matches or outperforms state-of-the-art specialized models, but also offers remarkable versatility in handling diverse input modalities and generation tasks within a unified architecture. The code and datasets will be available at https://zeyuet.github.io/AudioX/

AudioX: Diffusie Transformer voor Alles-naar-Audio Generatie

AudioX: Diffusion Transformer for Anything-to-Audio Generation

Samenvatting

Support