Langzeitmusikerzeugung mit latenter Diffusion
Long-form music generation with latent diffusion
April 16, 2024
Autoren: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI
Zusammenfassung
Audio-basierte generative Modelle für Musik haben in letzter Zeit große Fortschritte gemacht, konnten jedoch bisher keine vollständigen Musikstücke mit kohärenter musikalischer Struktur erzeugen. Wir zeigen, dass es durch das Training eines generativen Modells auf langen zeitlichen Kontexten möglich ist, Musikstücke in voller Länge von bis zu 4m45s zu erzeugen. Unser Modell besteht aus einem Diffusions-Transformer, der auf einer stark abgetasteten kontinuierlichen latenten Repräsentation (latente Rate von 21,5 Hz) arbeitet. Es erzielt Spitzenleistungen gemäß Metriken zur Audioqualität und Prompt-Ausrichtung, und subjektive Tests zeigen, dass es Musik in voller Länge mit kohärenter Struktur erzeugt.
English
Audio-based generative models for music have seen great strides recently, but
so far have not managed to produce full-length music tracks with coherent
musical structure. We show that by training a generative model on long temporal
contexts it is possible to produce long-form music of up to 4m45s. Our model
consists of a diffusion-transformer operating on a highly downsampled
continuous latent representation (latent rate of 21.5Hz). It obtains
state-of-the-art generations according to metrics on audio quality and prompt
alignment, and subjective tests reveal that it produces full-length music with
coherent structure.Summary
AI-Generated Summary