Modelos de Difusão de Música ao Vivo: Ajuste Fino Eficiente e Pós-Treinamento de Geradores Interativos de Música por Difusão

Resumo

A geração interativa de música em streaming promete o uso de modelos generativos para performance ao vivo e cocriação, algo impossível com modelos offline. No entanto, os modelos de última geração (SOTA) existem no regime AR discreto, exigindo níveis industriais de computação tanto para treinamento quanto para inferência. Neste trabalho, investigamos se modelos de difusão de áudio, com seu amplo suporte na comunidade de código aberto, mas natureza bidirecional não contínua, podem ser reutilizados de forma eficiente em modelos interativos acessíveis em hardware de consumidor. Ao examinar criticamente o pipeline moderno para difusão de extrapolação por blocos, identificamos ineficiências críticas durante a inferência que resultam em eficiência computacional estritamente pior do que suas contrapartes AR discretas. Propomos os Modelos de Difusão de Música ao Vivo (LMDMs), uma modificação simples do processo de difusão generativa que recupera e, em seguida, supera a complexidade de inferência dos Modelos de Música ao Vivo (LMMs) discretos por meio do cache KV por blocos. Ao contrário dos LMMs, os LMDMs permitem ainda um alinhamento estável pós-treinamento por meio de nosso novo paradigma ARC-Forcing, reduzindo o acúmulo de erros sem qualquer RL explícito ou modelos de recompensa. Demonstramos a aplicação dos LMDMs em vários domínios criativos, incluindo geração condicionada por texto, síntese musical baseada em esboços e jam sessions. Por fim, mostramos como os LMDMs podem ser usados como um instrumento generativo em uma colaboração real entre artista e IA, utilizando os LMDMs como um "delay generativo" para transformar a improvisação dos músicos ao vivo, com efeitos timbrísticos variáveis, enquanto executam localmente em um laptop gamer de consumo.

English

Interactive streaming music generation promises the use of generative models for live performance and co-creation that is impossible with offline models. However, SOTA models exist in the discrete-AR regime, requiring industrial levels of compute for both training and inference. In this work, we investigate whether audio diffusion models, with their wide support in the open-source community but non-streaming bidirectional nature, can be repurposed efficiently into interactive models accessible on consumer hardware. By taking a critical look at the modern pipeline for block-wise outpainting diffusion, we identify critical inefficiencies during inference that result in strictly worse computational efficiency than their discrete-AR counterparts. We propose Live Music Diffusion Models (LMDMs), a simple modification of the generative diffusion process that recovers, and then outperforms, the inference complexity of the discrete Live Music Models (LMMs) through block-wise KV Caching. Unlike LMMs, LMDMs further enable stable post-training alignment through our novel ARC-Forcing paradigm, reducing error accumulation without any explicit RL or reward models. We demonstrate the application of LMDMs in a number of creative domains, including text-conditioned generation, sketch-based music synthesis, and jamming. We finally show how LMDMs can be used as a generative instrument in a real artist-AI collaboration, utilizing LMDMs as a "generative delay" to transform musicians' improvisation live for variable timbral effects while running locally on a consumer gaming laptop.