DITTO: Optimización T en Tiempo de Inferencia con Difusión para la Generación de Música
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
January 22, 2024
Autores: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Resumen
Proponemos Diffusion Inference-Time T-Optimization (DITTO), un marco de trabajo de propósito general para controlar modelos de difusión preentrenados de texto a música durante el tiempo de inferencia mediante la optimización de latentes de ruido iniciales. Nuestro método puede utilizarse para optimizar a través de cualquier función de pérdida diferenciable de coincidencia de características para lograr una salida objetivo (estilizada) y aprovecha el checkpointing de gradientes para una mayor eficiencia de memoria. Demostramos una sorprendente variedad de aplicaciones para la generación de música, incluyendo inpainting, outpainting y looping, así como control de intensidad, melodía y estructura musical, todo ello sin necesidad de ajustar el modelo subyacente. Al comparar nuestro enfoque con métodos relacionados basados en entrenamiento, guía y optimización, encontramos que DITTO logra un rendimiento de vanguardia en casi todas las tareas, superando a enfoques comparables en términos de controlabilidad, calidad de audio y eficiencia computacional, abriendo así la puerta a un control de alta calidad, flexible y sin entrenamiento de modelos de difusión. Ejemplos de sonido pueden encontrarse en https://DITTO-Music.github.io/web/.
English
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose
frame-work for controlling pre-trained text-to-music diffusion models at
inference-time via optimizing initial noise latents. Our method can be used to
optimize through any differentiable feature matching loss to achieve a target
(stylized) output and leverages gradient checkpointing for memory efficiency.
We demonstrate a surprisingly wide-range of applications for music generation
including inpainting, outpainting, and looping as well as intensity, melody,
and musical structure control - all without ever fine-tuning the underlying
model. When we compare our approach against related training, guidance, and
optimization-based methods, we find DITTO achieves state-of-the-art performance
on nearly all tasks, including outperforming comparable approaches on
controllability, audio quality, and computational efficiency, thus opening the
door for high-quality, flexible, training-free control of diffusion models.
Sound examples can be found at https://DITTO-Music.github.io/web/.