Modelos de difusión para música en vivo: Ajuste fino eficiente y post-entrenamiento de generadores interactivos de música por difusión

Resumen

La generación interactiva de música en streaming promete el uso de modelos generativos para la interpretación en vivo y la co-creación, algo imposible con modelos offline. Sin embargo, los modelos del estado del arte (SOTA) existen en el régimen AR discreto, requiriendo niveles industriales de cómputo tanto para el entrenamiento como para la inferencia. En este trabajo, investigamos si los modelos de difusión de audio, con su amplio soporte en la comunidad de código abierto pero su naturaleza bidireccional no secuencial, pueden ser reutilizados eficientemente como modelos interactivos accesibles en hardware de consumo. Al examinar críticamente el pipeline moderno para la difusión de extrapolación por bloques, identificamos ineficiencias críticas durante la inferencia que resultan en una eficiencia computacional estrictamente peor que la de sus contrapartes AR discretas. Proponemos los Modelos de Difusión Musical en Vivo (LMDMs), una modificación simple del proceso de difusión generativa que recupera, y luego supera, la complejidad de inferencia de los Modelos Musicales en Vivo (LMMs) discretos mediante el almacenamiento en caché KV por bloques. A diferencia de los LMMs, los LMDMs permiten además un alineamiento estable post-entrenamiento a través de nuestro novedoso paradigma ARC-Forcing, reduciendo la acumulación de errores sin necesidad de RL explícito ni modelos de recompensa. Demostramos la aplicación de los LMDMs en varios dominios creativos, incluyendo la generación condicionada por texto, la síntesis musical basada en bocetos y el improvisación colectiva (jamming). Finalmente, mostramos cómo los LMDMs pueden utilizarse como un instrumento generativo en una colaboración real entre artista e IA, empleando los LMDMs como un "delay generativo" para transformar la improvisación de los músicos en vivo con efectos tímbricos variables, mientras se ejecutan localmente en un portátil de consumo para juegos.

English

Interactive streaming music generation promises the use of generative models for live performance and co-creation that is impossible with offline models. However, SOTA models exist in the discrete-AR regime, requiring industrial levels of compute for both training and inference. In this work, we investigate whether audio diffusion models, with their wide support in the open-source community but non-streaming bidirectional nature, can be repurposed efficiently into interactive models accessible on consumer hardware. By taking a critical look at the modern pipeline for block-wise outpainting diffusion, we identify critical inefficiencies during inference that result in strictly worse computational efficiency than their discrete-AR counterparts. We propose Live Music Diffusion Models (LMDMs), a simple modification of the generative diffusion process that recovers, and then outperforms, the inference complexity of the discrete Live Music Models (LMMs) through block-wise KV Caching. Unlike LMMs, LMDMs further enable stable post-training alignment through our novel ARC-Forcing paradigm, reducing error accumulation without any explicit RL or reward models. We demonstrate the application of LMDMs in a number of creative domains, including text-conditioned generation, sketch-based music synthesis, and jamming. We finally show how LMDMs can be used as a generative instrument in a real artist-AI collaboration, utilizing LMDMs as a "generative delay" to transform musicians' improvisation live for variable timbral effects while running locally on a consumer gaming laptop.