DITTO: Diffusionsbasierte Inferenzzeit-Optimierung für die Musikerzeugung

papers.abstract

Wir schlagen Diffusion Inference-Time T-Optimization (DITTO) vor, ein allgemeines Framework zur Steuerung vortrainierter Text-zu-Musik-Diffusionsmodelle während der Inferenz durch Optimierung der initialen Rausch-Latents. Unsere Methode kann verwendet werden, um durch jeden differenzierbaren Feature-Matching-Verlust zu optimieren, um ein Ziel (stilisiertes) Ergebnis zu erreichen, und nutzt Gradient Checkpointing für Speichereffizienz. Wir demonstrieren eine überraschend breite Palette von Anwendungen für die Musikerzeugung, einschließlich Inpainting, Outpainting und Looping sowie Intensitäts-, Melodie- und musikalische Struktursteuerung – alles ohne jemals das zugrunde liegende Modell feinzutunen. Wenn wir unseren Ansatz mit verwandten Methoden basierend auf Training, Guidance und Optimierung vergleichen, stellen wir fest, dass DITTO in nahezu allen Aufgaben state-of-the-art Leistungen erzielt, einschließlich der Überlegenheit gegenüber vergleichbaren Ansätzen in Bezug auf Steuerbarkeit, Audioqualität und Recheneffizienz. Dies öffnet die Tür für hochwertige, flexible, trainingsfreie Steuerung von Diffusionsmodellen. Klangbeispiele finden Sie unter https://DITTO-Music.github.io/web/.

English

We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control - all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/.

DITTO: Diffusionsbasierte Inferenzzeit-Optimierung für die Musikerzeugung

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

papers.abstract

Support