ChatPaper.aiChatPaper

DITTO-2: Destillierte Diffusionsinferenz-Zeit-T-Optimierung für die Musikgenerierung

DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

May 30, 2024
Autoren: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan
cs.AI

Zusammenfassung

Kontrollierbare Musikgenerierungsmethoden sind entscheidend für die auf den Menschen ausgerichtete musikalische Kreation auf Basis KI, werden jedoch derzeit durch Geschwindigkeit, Qualität und Designkompromisse bei der Steuerung eingeschränkt. Die Diffusion Inference-Time T-Optimierung (DITTO) bietet insbesondere modernste Ergebnisse, ist jedoch über 10-mal langsamer als Echtzeit, was die praktische Anwendung begrenzt. Wir schlagen Distilled Diffusion Inference-Time T-Optimierung (oder DITTO-2) vor, eine neue Methode zur Beschleunigung der Optimierung zur Inferenzzeit und zur Freischaltung einer schnelleren als Echtzeit-Generierung für eine Vielzahl von Anwendungen wie Musik-Inpainting, Outpainting, Intensität, Melodie und musikalische Struktursteuerung. Unsere Methode funktioniert durch (1) Destillieren eines vortrainierten Diffusionsmodells für schnelles Sampling über einen effizienten, modifizierten Konsistenz- oder Konsistenz-Trajektorien-Destillationsprozess, (2) Durchführung der Inferenzzeit-Optimierung unter Verwendung unseres destillierten Modells mit Ein-Schritt-Sampling als effiziente Ersatzoptimierungsaufgabe und (3) Ausführen einer abschließenden Mehrschritt-Sampling-Generierung (Dekodierung) unter Verwendung unserer geschätzten Rauschlatenten für eine hochwertige, schnelle, kontrollierbare Generierung. Durch gründliche Evaluation stellen wir fest, dass unsere Methode nicht nur die Generierung um das 10- bis 20-fache beschleunigt, sondern gleichzeitig die Steuerungsadhärenz und Generierungsqualität gleichzeitig verbessert. Darüber hinaus wenden wir unseren Ansatz auf eine neue Anwendung zur Maximierung der Textadhärenz (CLAP-Score) an und zeigen, dass wir ein bedingungsloses Diffusionsmodell ohne Texteingaben in ein Modell umwandeln können, das modernste Textsteuerung bietet. Klangbeispiele finden Sie unter https://ditto-music.github.io/ditto2/.
English
Controllable music generation methods are critical for human-centered AI-based music creation, but are currently limited by speed, quality, and control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in particular, offers state-of-the-art results, but is over 10x slower than real-time, limiting practical use. We propose Distilled Diffusion Inference-Time T -Optimization (or DITTO-2), a new method to speed up inference-time optimization-based control and unlock faster-than-real-time generation for a wide-variety of applications such as music inpainting, outpainting, intensity, melody, and musical structure control. Our method works by (1) distilling a pre-trained diffusion model for fast sampling via an efficient, modified consistency or consistency trajectory distillation process (2) performing inference-time optimization using our distilled model with one-step sampling as an efficient surrogate optimization task and (3) running a final multi-step sampling generation (decoding) using our estimated noise latents for best-quality, fast, controllable generation. Through thorough evaluation, we find our method not only speeds up generation over 10-20x, but simultaneously improves control adherence and generation quality all at once. Furthermore, we apply our approach to a new application of maximizing text adherence (CLAP score) and show we can convert an unconditional diffusion model without text inputs into a model that yields state-of-the-art text control. Sound examples can be found at https://ditto-music.github.io/ditto2/.

Summary

AI-Generated Summary

PDF110December 12, 2024