Generación de música de larga duración con difusión latente

Resumen

Los modelos generativos basados en audio para música han experimentado grandes avances recientemente, pero hasta ahora no han logrado producir pistas musicales completas con una estructura musical coherente. Demostramos que, al entrenar un modelo generativo con contextos temporales largos, es posible producir música de larga duración de hasta 4 minutos y 45 segundos. Nuestro modelo consiste en un transformador de difusión que opera sobre una representación latente continua altamente reducida (tasa latente de 21.5 Hz). Obtiene generaciones de vanguardia según métricas de calidad de audio y alineación con el prompt, y pruebas subjetivas revelan que produce música completa con una estructura coherente.

English

Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure.

Generación de música de larga duración con difusión latente

Long-form music generation with latent diffusion

Resumen

Support