Génération musicale longue durée par diffusion latente
Long-form music generation with latent diffusion
April 16, 2024
Auteurs: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI
Résumé
Les modèles génératifs audio pour la musique ont récemment accompli des progrès significatifs, mais jusqu'à présent, ils n'ont pas réussi à produire des pistes musicales complètes avec une structure musicale cohérente. Nous démontrons qu'en entraînant un modèle génératif sur des contextes temporels longs, il est possible de produire de la musique de longue durée, allant jusqu'à 4 minutes et 45 secondes. Notre modèle repose sur un transformeur de diffusion opérant sur une représentation latente continue fortement sous-échantillonnée (taux latent de 21,5 Hz). Il atteint des performances de pointe en termes de qualité audio et d'alignement avec les prompts, selon des métriques objectives, et des tests subjectifs révèlent qu'il produit de la musique de longue durée avec une structure cohérente.
English
Audio-based generative models for music have seen great strides recently, but
so far have not managed to produce full-length music tracks with coherent
musical structure. We show that by training a generative model on long temporal
contexts it is possible to produce long-form music of up to 4m45s. Our model
consists of a diffusion-transformer operating on a highly downsampled
continuous latent representation (latent rate of 21.5Hz). It obtains
state-of-the-art generations according to metrics on audio quality and prompt
alignment, and subjective tests reveal that it produces full-length music with
coherent structure.Summary
AI-Generated Summary