Geração de música de longa duração com difusão latente

Resumo

Modelos generativos baseados em áudio para música têm apresentado avanços significativos recentemente, mas até agora não conseguiram produzir faixas musicais completas com uma estrutura musical coerente. Demonstramos que, ao treinar um modelo generativo com contextos temporais longos, é possível produzir música de longa duração de até 4m45s. Nosso modelo consiste em um transformer de difusão que opera em uma representação latente contínua altamente reduzida (taxa latente de 21,5Hz). Ele alcança gerações de última geração de acordo com métricas de qualidade de áudio e alinhamento com prompts, e testes subjetivos revelam que ele produz música de longa duração com estrutura coerente.

English

Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure.

Geração de música de longa duração com difusão latente

Long-form music generation with latent diffusion

Resumo

Support