DITTO: Diffusionsbasierte Inferenzzeit-Optimierung für die Musikerzeugung
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
January 22, 2024
Autoren: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Zusammenfassung
Wir schlagen Diffusion Inference-Time T-Optimization (DITTO) vor, ein allgemeines Framework zur Steuerung vortrainierter Text-zu-Musik-Diffusionsmodelle während der Inferenz durch Optimierung der initialen Rausch-Latents. Unsere Methode kann verwendet werden, um durch jeden differenzierbaren Feature-Matching-Verlust zu optimieren, um ein Ziel (stilisiertes) Ergebnis zu erreichen, und nutzt Gradient Checkpointing für Speichereffizienz. Wir demonstrieren eine überraschend breite Palette von Anwendungen für die Musikerzeugung, einschließlich Inpainting, Outpainting und Looping sowie Intensitäts-, Melodie- und musikalische Struktursteuerung – alles ohne jemals das zugrunde liegende Modell feinzutunen. Wenn wir unseren Ansatz mit verwandten Methoden basierend auf Training, Guidance und Optimierung vergleichen, stellen wir fest, dass DITTO in nahezu allen Aufgaben state-of-the-art Leistungen erzielt, einschließlich der Überlegenheit gegenüber vergleichbaren Ansätzen in Bezug auf Steuerbarkeit, Audioqualität und Recheneffizienz. Dies öffnet die Tür für hochwertige, flexible, trainingsfreie Steuerung von Diffusionsmodellen. Klangbeispiele finden Sie unter https://DITTO-Music.github.io/web/.
English
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose
frame-work for controlling pre-trained text-to-music diffusion models at
inference-time via optimizing initial noise latents. Our method can be used to
optimize through any differentiable feature matching loss to achieve a target
(stylized) output and leverages gradient checkpointing for memory efficiency.
We demonstrate a surprisingly wide-range of applications for music generation
including inpainting, outpainting, and looping as well as intensity, melody,
and musical structure control - all without ever fine-tuning the underlying
model. When we compare our approach against related training, guidance, and
optimization-based methods, we find DITTO achieves state-of-the-art performance
on nearly all tasks, including outperforming comparable approaches on
controllability, audio quality, and computational efficiency, thus opening the
door for high-quality, flexible, training-free control of diffusion models.
Sound examples can be found at https://DITTO-Music.github.io/web/.