Langzeitmusikerzeugung mit latenter Diffusion

papers.abstract

Audio-basierte generative Modelle für Musik haben in letzter Zeit große Fortschritte gemacht, konnten jedoch bisher keine vollständigen Musikstücke mit kohärenter musikalischer Struktur erzeugen. Wir zeigen, dass es durch das Training eines generativen Modells auf langen zeitlichen Kontexten möglich ist, Musikstücke in voller Länge von bis zu 4m45s zu erzeugen. Unser Modell besteht aus einem Diffusions-Transformer, der auf einer stark abgetasteten kontinuierlichen latenten Repräsentation (latente Rate von 21,5 Hz) arbeitet. Es erzielt Spitzenleistungen gemäß Metriken zur Audioqualität und Prompt-Ausrichtung, und subjektive Tests zeigen, dass es Musik in voller Länge mit kohärenter Struktur erzeugt.

English

Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure.

Langzeitmusikerzeugung mit latenter Diffusion

Long-form music generation with latent diffusion

papers.abstract

Support