Live-Musik-Diffusionsmodelle: Effizientes Feintuning und Post-Training interaktiver Diffusionsmusikgeneratoren

Zusammenfassung

Interaktive, streamingfähige Musikgenerierung verspricht den Einsatz generativer Modelle für Live-Performances und Co-Kreation, was mit Offline-Modellen unmöglich ist. Allerdings existieren State-of-the-Art-Modelle im diskret-autoregressiven Bereich, die sowohl für das Training als auch für die Inferenz industrielle Rechenressourcen erfordern. In dieser Arbeit untersuchen wir, ob Audio-Diffusionsmodelle, die in der Open-Source-Community breite Unterstützung finden, aber aufgrund ihrer bidirektionalen Natur nicht für Streaming ausgelegt sind, effizient in interaktive Modelle umgewandelt werden können, die auf Consumer-Hardware lauffähig sind. Durch eine kritische Analyse der modernen Pipeline für blockweises Outpainting mit Diffusion identifizieren wir kritische Ineffizienzen während der Inferenz, die zu einer strikt schlechteren Recheneffizienz im Vergleich zu ihren diskret-autoregressiven Pendants führen. Wir schlagen Live Music Diffusion Models (LMDMs) vor, eine einfache Modifikation des generativen Diffusionsprozesses, die die Inferenzkomplexität der diskreten Live Music Models (LMMs) durch blockweises KV-Caching wiederherstellt und sogar übertrifft. Im Gegensatz zu LMMs ermöglichen LMDMs zudem eine stabile Post-Training-Ausrichtung durch unser neuartiges ARC-Forcing-Paradigma, das Fehlerakkumulation ohne explizite Reinforcement-Learning- oder Belohnungsmodelle reduziert. Wir demonstrieren die Anwendung von LMDMs in mehreren kreativen Bereichen, darunter textgesteuerte Generierung, skizzenbasierte Musiksynthese und Jammen. Abschließend zeigen wir, wie LMDMs als generatives Instrument in einer realen Künstler-KI-Kollaboration eingesetzt werden können, indem wir LMDMs als „generative Verzögerung“ nutzen, um die Improvisation von Musikern live mit variablen klanglichen Effekten zu transformieren – und das bei lokalem Betrieb auf einem handelsüblichen Gaming-Laptop.

English

Interactive streaming music generation promises the use of generative models for live performance and co-creation that is impossible with offline models. However, SOTA models exist in the discrete-AR regime, requiring industrial levels of compute for both training and inference. In this work, we investigate whether audio diffusion models, with their wide support in the open-source community but non-streaming bidirectional nature, can be repurposed efficiently into interactive models accessible on consumer hardware. By taking a critical look at the modern pipeline for block-wise outpainting diffusion, we identify critical inefficiencies during inference that result in strictly worse computational efficiency than their discrete-AR counterparts. We propose Live Music Diffusion Models (LMDMs), a simple modification of the generative diffusion process that recovers, and then outperforms, the inference complexity of the discrete Live Music Models (LMMs) through block-wise KV Caching. Unlike LMMs, LMDMs further enable stable post-training alignment through our novel ARC-Forcing paradigm, reducing error accumulation without any explicit RL or reward models. We demonstrate the application of LMDMs in a number of creative domains, including text-conditioned generation, sketch-based music synthesis, and jamming. We finally show how LMDMs can be used as a generative instrument in a real artist-AI collaboration, utilizing LMDMs as a "generative delay" to transform musicians' improvisation live for variable timbral effects while running locally on a consumer gaming laptop.