DITTO-2: Optimización T en Tiempo de Inferencia de Difusión Destilada para la Generación de Música
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation
May 30, 2024
Autores: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan
cs.AI
Resumen
Los métodos de generación de música controlable son fundamentales para la creación de música basada en IA centrada en el ser humano, pero actualmente están limitados por compromisos entre velocidad, calidad y diseño de control. En particular, la Optimización de Tiempo de Inferencia de Difusión (DITTO) ofrece resultados de vanguardia, pero es más de 10 veces más lenta que el tiempo real, lo que limita su uso práctico. Proponemos la Optimización de Tiempo de Inferencia de Difusión Destilada (o DITTO-2), un nuevo método para acelerar el control basado en optimización en tiempo de inferencia y desbloquear la generación más rápida que el tiempo real para una amplia variedad de aplicaciones, como la restauración de música, la extensión, la intensidad, la melodía y el control de la estructura musical. Nuestro método funciona (1) destilando un modelo de difusión preentrenado para un muestreo rápido mediante un proceso eficiente de destilación de consistencia o trayectoria de consistencia modificada, (2) realizando optimización en tiempo de inferencia utilizando nuestro modelo destilado con muestreo de un solo paso como una tarea de optimización sustituta eficiente, y (3) ejecutando una generación final de muestreo de múltiples pasos (decodificación) utilizando nuestros latentes de ruido estimados para una generación controlable, rápida y de la mejor calidad. A través de una evaluación exhaustiva, encontramos que nuestro método no solo acelera la generación más de 10-20 veces, sino que también mejora simultáneamente la adherencia al control y la calidad de la generación. Además, aplicamos nuestro enfoque a una nueva aplicación de maximización de adherencia al texto (puntuación CLAP) y demostramos que podemos convertir un modelo de difusión no condicional sin entradas de texto en un modelo que ofrece un control de texto de vanguardia. Los ejemplos de sonido se pueden encontrar en https://ditto-music.github.io/ditto2/.
English
Controllable music generation methods are critical for human-centered
AI-based music creation, but are currently limited by speed, quality, and
control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in
particular, offers state-of-the-art results, but is over 10x slower than
real-time, limiting practical use. We propose Distilled Diffusion
Inference-Time T -Optimization (or DITTO-2), a new method to speed up
inference-time optimization-based control and unlock faster-than-real-time
generation for a wide-variety of applications such as music inpainting,
outpainting, intensity, melody, and musical structure control. Our method works
by (1) distilling a pre-trained diffusion model for fast sampling via an
efficient, modified consistency or consistency trajectory distillation process
(2) performing inference-time optimization using our distilled model with
one-step sampling as an efficient surrogate optimization task and (3) running a
final multi-step sampling generation (decoding) using our estimated noise
latents for best-quality, fast, controllable generation. Through thorough
evaluation, we find our method not only speeds up generation over 10-20x, but
simultaneously improves control adherence and generation quality all at once.
Furthermore, we apply our approach to a new application of maximizing text
adherence (CLAP score) and show we can convert an unconditional diffusion model
without text inputs into a model that yields state-of-the-art text control.
Sound examples can be found at https://ditto-music.github.io/ditto2/.Summary
AI-Generated Summary