Génération musicale longue durée par diffusion latente

papers.abstract

Les modèles génératifs audio pour la musique ont récemment accompli des progrès significatifs, mais jusqu'à présent, ils n'ont pas réussi à produire des pistes musicales complètes avec une structure musicale cohérente. Nous démontrons qu'en entraînant un modèle génératif sur des contextes temporels longs, il est possible de produire de la musique de longue durée, allant jusqu'à 4 minutes et 45 secondes. Notre modèle repose sur un transformeur de diffusion opérant sur une représentation latente continue fortement sous-échantillonnée (taux latent de 21,5 Hz). Il atteint des performances de pointe en termes de qualité audio et d'alignement avec les prompts, selon des métriques objectives, et des tests subjectifs révèlent qu'il produit de la musique de longue durée avec une structure cohérente.

English

Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure.

Génération musicale longue durée par diffusion latente

Long-form music generation with latent diffusion

papers.abstract

Support