DITTO-2: Дистиллированная диффузионная оптимизация времени вывода T для генерации музыки
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation
May 30, 2024
Авторы: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan
cs.AI
Аннотация
Контролируемые методы генерации музыки критически важны для создания музыки на основе ИИ, ориентированной на человека, но в настоящее время ограничены скоростью, качеством и компромиссами в проектировании управления. Диффузионная оптимизация времени вывода T (DITTO) в частности предлагает передовые результаты, но более чем в 10 раз медленнее реального времени, что ограничивает практическое использование. Мы предлагаем Дистиллированную диффузионную оптимизацию времени вывода T (или DITTO-2), новый метод для ускорения оптимизации времени вывода на основе контроля и разблокирования генерации быстрее реального времени для широкого спектра приложений, таких как восполнение музыки, вывод музыки, интенсивность, мелодия и управление музыкальной структурой. Наш метод работает путем (1) дистилляции предварительно обученной модели диффузии для быстрого сэмплирования с помощью эффективного модифицированного процесса дистилляции согласованности или траектории согласованности (2) выполнения оптимизации времени вывода с использованием нашей дистиллированной модели с одношаговым сэмплированием в качестве эффективной задачи замещения оптимизации и (3) выполнения окончательной многошаговой генерации сэмплирования (декодирования) с использованием наших оцененных шумовых латентов для генерации наилучшего качества, быстрой и управляемой генерации. Проведя тщательное оценивание, мы обнаружили, что наш метод не только ускоряет генерацию более чем в 10-20 раз, но одновременно улучшает соблюдение управления и качество генерации одновременно. Более того, мы применяем наш подход к новому приложению максимизации соблюдения текста (оценка CLAP) и показываем, что мы можем преобразовать безусловную модель диффузии без текстовых входов в модель, которая обеспечивает передовое управление текстом. Примеры звука можно найти по адресу https://ditto-music.github.io/ditto2/.
English
Controllable music generation methods are critical for human-centered
AI-based music creation, but are currently limited by speed, quality, and
control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in
particular, offers state-of-the-art results, but is over 10x slower than
real-time, limiting practical use. We propose Distilled Diffusion
Inference-Time T -Optimization (or DITTO-2), a new method to speed up
inference-time optimization-based control and unlock faster-than-real-time
generation for a wide-variety of applications such as music inpainting,
outpainting, intensity, melody, and musical structure control. Our method works
by (1) distilling a pre-trained diffusion model for fast sampling via an
efficient, modified consistency or consistency trajectory distillation process
(2) performing inference-time optimization using our distilled model with
one-step sampling as an efficient surrogate optimization task and (3) running a
final multi-step sampling generation (decoding) using our estimated noise
latents for best-quality, fast, controllable generation. Through thorough
evaluation, we find our method not only speeds up generation over 10-20x, but
simultaneously improves control adherence and generation quality all at once.
Furthermore, we apply our approach to a new application of maximizing text
adherence (CLAP score) and show we can convert an unconditional diffusion model
without text inputs into a model that yields state-of-the-art text control.
Sound examples can be found at https://ditto-music.github.io/ditto2/.Summary
AI-Generated Summary