Geração de música de longa duração com difusão latente
Long-form music generation with latent diffusion
April 16, 2024
Autores: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI
Resumo
Modelos generativos baseados em áudio para música têm apresentado avanços significativos recentemente, mas até agora não conseguiram produzir faixas musicais completas com uma estrutura musical coerente. Demonstramos que, ao treinar um modelo generativo com contextos temporais longos, é possível produzir música de longa duração de até 4m45s. Nosso modelo consiste em um transformer de difusão que opera em uma representação latente contínua altamente reduzida (taxa latente de 21,5Hz). Ele alcança gerações de última geração de acordo com métricas de qualidade de áudio e alinhamento com prompts, e testes subjetivos revelam que ele produz música de longa duração com estrutura coerente.
English
Audio-based generative models for music have seen great strides recently, but
so far have not managed to produce full-length music tracks with coherent
musical structure. We show that by training a generative model on long temporal
contexts it is possible to produce long-form music of up to 4m45s. Our model
consists of a diffusion-transformer operating on a highly downsampled
continuous latent representation (latent rate of 21.5Hz). It obtains
state-of-the-art generations according to metrics on audio quality and prompt
alignment, and subjective tests reveal that it produces full-length music with
coherent structure.