Generación de música de larga duración con difusión latente
Long-form music generation with latent diffusion
April 16, 2024
Autores: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI
Resumen
Los modelos generativos basados en audio para música han experimentado grandes avances recientemente, pero hasta ahora no han logrado producir pistas musicales completas con una estructura musical coherente. Demostramos que, al entrenar un modelo generativo con contextos temporales largos, es posible producir música de larga duración de hasta 4 minutos y 45 segundos. Nuestro modelo consiste en un transformador de difusión que opera sobre una representación latente continua altamente reducida (tasa latente de 21.5 Hz). Obtiene generaciones de vanguardia según métricas de calidad de audio y alineación con el prompt, y pruebas subjetivas revelan que produce música completa con una estructura coherente.
English
Audio-based generative models for music have seen great strides recently, but
so far have not managed to produce full-length music tracks with coherent
musical structure. We show that by training a generative model on long temporal
contexts it is possible to produce long-form music of up to 4m45s. Our model
consists of a diffusion-transformer operating on a highly downsampled
continuous latent representation (latent rate of 21.5Hz). It obtains
state-of-the-art generations according to metrics on audio quality and prompt
alignment, and subjective tests reveal that it produces full-length music with
coherent structure.Summary
AI-Generated Summary