DITTO: Оптимизация на этапе вывода с использованием диффузии для генерации музыки
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
January 22, 2024
Авторы: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Аннотация
Мы представляем Diffusion Inference-Time T-Optimization (DITTO) — универсальную структуру для управления предобученными диффузионными моделями преобразования текста в музыку на этапе вывода путем оптимизации начальных латентных шумов. Наш метод позволяет оптимизировать любую дифференцируемую функцию потерь для сопоставления признаков с целью достижения целевого (стилизованного) результата и использует градиентный чекпоинтинг для повышения эффективности использования памяти. Мы демонстрируем удивительно широкий спектр применений для генерации музыки, включая восстановление (inpainting), расширение (outpainting), зацикливание, а также управление интенсивностью, мелодией и музыкальной структурой — всё это без необходимости тонкой настройки базовой модели. При сравнении нашего подхода с методами, основанными на обучении, управлении и оптимизации, мы обнаруживаем, что DITTO достигает наилучших результатов практически во всех задачах, включая превосходство по управляемости, качеству звука и вычислительной эффективности, что открывает путь к высококачественному, гибкому и не требующему обучения управлению диффузионными моделями. Примеры звучания можно найти на https://DITTO-Music.github.io/web/.
English
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose
frame-work for controlling pre-trained text-to-music diffusion models at
inference-time via optimizing initial noise latents. Our method can be used to
optimize through any differentiable feature matching loss to achieve a target
(stylized) output and leverages gradient checkpointing for memory efficiency.
We demonstrate a surprisingly wide-range of applications for music generation
including inpainting, outpainting, and looping as well as intensity, melody,
and musical structure control - all without ever fine-tuning the underlying
model. When we compare our approach against related training, guidance, and
optimization-based methods, we find DITTO achieves state-of-the-art performance
on nearly all tasks, including outperforming comparable approaches on
controllability, audio quality, and computational efficiency, thus opening the
door for high-quality, flexible, training-free control of diffusion models.
Sound examples can be found at https://DITTO-Music.github.io/web/.