Lange muziekgeneratie met latente diffusie
Long-form music generation with latent diffusion
April 16, 2024
Auteurs: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI
Samenvatting
Audio-gebaseerde generatieve modellen voor muziek hebben recentelijk grote vooruitgang geboekt, maar zijn tot nu toe niet in staat geweest volledige muziektracks met een samenhangende muzikale structuur te produceren. We tonen aan dat het mogelijk is om langere muziekstukken van maximaal 4 minuten en 45 seconden te genereren door een generatief model te trainen op lange temporele contexten. Ons model bestaat uit een diffusie-transformer die werkt op een sterk gedownsamplede continue latente representatie (latente frequentie van 21,5 Hz). Het behaalt state-of-the-art resultaten volgens metrieken voor audiokwaliteit en promptafstemming, en subjectieve tests laten zien dat het volledige muziekstukken met een samenhangende structuur produceert.
English
Audio-based generative models for music have seen great strides recently, but
so far have not managed to produce full-length music tracks with coherent
musical structure. We show that by training a generative model on long temporal
contexts it is possible to produce long-form music of up to 4m45s. Our model
consists of a diffusion-transformer operating on a highly downsampled
continuous latent representation (latent rate of 21.5Hz). It obtains
state-of-the-art generations according to metrics on audio quality and prompt
alignment, and subjective tests reveal that it produces full-length music with
coherent structure.