Модели диффузии живой музыки: эффективная тонкая настройка и дообучение интерактивных диффузионных генераторов музыки

Аннотация

Интерактивная потоковая генерация музыки обещает применение генеративных моделей для живых выступлений и совместного творчества, что невозможно с офлайн-моделями. Однако современные модели существуют в дискретном авторегрессивном режиме, требуя промышленных вычислительных мощностей как для обучения, так и для инференса. В данной работе мы исследуем, могут ли аудиодиффузионные модели, широко поддерживаемые сообществом открытого исходного кода, но обладающие непотоковой двунаправленной природой, быть эффективно перепрофилированы в интерактивные модели, доступные на потребительском оборудовании. Критически проанализировав современный конвейер блочной диффузии с дорисовыванием, мы выявляем критические неэффективности во время инференса, которые приводят к строго худшей вычислительной эффективности по сравнению с дискретными авторегрессивными аналогами. Мы предлагаем Модели диффузии живой музыки (LMDM) — простую модификацию генеративного диффузионного процесса, которая восстанавливает, а затем превосходит сложность инференса дискретных Моделей живой музыки (LMM) за счёт блочного кэширования KV. В отличие от LMM, LMDM дополнительно обеспечивают стабильное посттренировочное выравнивание благодаря нашей новой парадигме ARC-Forcing, уменьшая накопление ошибок без использования явных моделей RL или вознаграждения. Мы демонстрируем применение LMDM в ряде творческих областей, включая генерацию по текстовому условию, синтез музыки на основе эскизов и джем-сейшны. Наконец, мы показываем, как LMDM могут использоваться как генеративный инструмент в реальном сотрудничестве художника и ИИ, применяясь как «генеративная задержка» для трансформации импровизации музыкантов в реальном времени с целью создания переменных тембральных эффектов, работая локально на потребительском игровом ноутбуке.

English

Interactive streaming music generation promises the use of generative models for live performance and co-creation that is impossible with offline models. However, SOTA models exist in the discrete-AR regime, requiring industrial levels of compute for both training and inference. In this work, we investigate whether audio diffusion models, with their wide support in the open-source community but non-streaming bidirectional nature, can be repurposed efficiently into interactive models accessible on consumer hardware. By taking a critical look at the modern pipeline for block-wise outpainting diffusion, we identify critical inefficiencies during inference that result in strictly worse computational efficiency than their discrete-AR counterparts. We propose Live Music Diffusion Models (LMDMs), a simple modification of the generative diffusion process that recovers, and then outperforms, the inference complexity of the discrete Live Music Models (LMMs) through block-wise KV Caching. Unlike LMMs, LMDMs further enable stable post-training alignment through our novel ARC-Forcing paradigm, reducing error accumulation without any explicit RL or reward models. We demonstrate the application of LMDMs in a number of creative domains, including text-conditioned generation, sketch-based music synthesis, and jamming. We finally show how LMDMs can be used as a generative instrument in a real artist-AI collaboration, utilizing LMDMs as a "generative delay" to transform musicians' improvisation live for variable timbral effects while running locally on a consumer gaming laptop.