Modèles de diffusion pour la musique en direct : Ajustement fin efficace et post-entraînement de générateurs de musique interactifs par diffusion

Résumé

La génération musicale interactive en streaming promet l'utilisation de modèles génératifs pour la performance en direct et la co-création, ce qui est impossible avec les modèles hors ligne. Cependant, les modèles de pointe relèvent du régime AR discret, nécessitant des ressources de calcul de niveau industriel tant pour l'entraînement que pour l'inférence. Dans ce travail, nous examinons si les modèles de diffusion audio, bénéficiant d'un large soutien dans la communauté open source mais de nature bidirectionnelle non streamable, peuvent être efficacement réutilisés comme modèles interactifs accessibles sur du matériel grand public. En adoptant une approche critique du pipeline moderne de diffusion par extrapolation par blocs, nous identifions des inefficacités clés lors de l'inférence qui conduisent à une efficacité computationnelle strictement inférieure à celle de leurs homologues AR discrets. Nous proposons les modèles de diffusion musicale en direct (LMDMs), une simple modification du processus de diffusion générative qui permet de retrouver, puis de surpasser, la complexité d'inférence des modèles de musique en direct discrets (LMMs) grâce à une mise en cache KV par blocs. Contrairement aux LMMs, les LMDMs permettent en outre un alignement stable post-entraînement via notre nouveau paradigme ARC-Forcing, réduisant l'accumulation d'erreurs sans aucun recours explicite à l'apprentissage par renforcement ou à des modèles de récompense. Nous démontrons l'application des LMDMs dans plusieurs domaines créatifs, notamment la génération conditionnée par du texte, la synthèse musicale à partir d'esquisses et le jamming. Enfin, nous montrons comment les LMDMs peuvent être utilisés comme instrument génératif dans une véritable collaboration artiste-IA, en employant les LMDMs comme "delay génératif" pour transformer l'improvisation des musiciens en direct avec des effets timbraux variables, le tout fonctionnant localement sur un ordinateur portable grand public dédié au jeu.

English

Interactive streaming music generation promises the use of generative models for live performance and co-creation that is impossible with offline models. However, SOTA models exist in the discrete-AR regime, requiring industrial levels of compute for both training and inference. In this work, we investigate whether audio diffusion models, with their wide support in the open-source community but non-streaming bidirectional nature, can be repurposed efficiently into interactive models accessible on consumer hardware. By taking a critical look at the modern pipeline for block-wise outpainting diffusion, we identify critical inefficiencies during inference that result in strictly worse computational efficiency than their discrete-AR counterparts. We propose Live Music Diffusion Models (LMDMs), a simple modification of the generative diffusion process that recovers, and then outperforms, the inference complexity of the discrete Live Music Models (LMMs) through block-wise KV Caching. Unlike LMMs, LMDMs further enable stable post-training alignment through our novel ARC-Forcing paradigm, reducing error accumulation without any explicit RL or reward models. We demonstrate the application of LMDMs in a number of creative domains, including text-conditioned generation, sketch-based music synthesis, and jamming. We finally show how LMDMs can be used as a generative instrument in a real artist-AI collaboration, utilizing LMDMs as a "generative delay" to transform musicians' improvisation live for variable timbral effects while running locally on a consumer gaming laptop.