DITTO-2: Ottimizzazione T al Momento dell'Inferenza per la Generazione Musicale tramite Distillazione della Diffusione
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation
May 30, 2024
Autori: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan
cs.AI
Abstract
I metodi di generazione musicale controllabile sono fondamentali per la creazione musicale basata sull'IA centrata sull'uomo, ma sono attualmente limitati da compromessi tra velocità, qualità e progettazione del controllo. In particolare, la Diffusion Inference-Time T-optimization (DITTO) offre risultati all'avanguardia, ma è oltre 10 volte più lenta del tempo reale, limitando l'uso pratico. Proponiamo la Distilled Diffusion Inference-Time T-Optimization (o DITTO-2), un nuovo metodo per accelerare l'ottimizzazione basata sul controllo durante l'inferenza e sbloccare una generazione più veloce del tempo reale per una vasta gamma di applicazioni come l'inpainting musicale, l'outpainting, il controllo dell'intensità, della melodia e della struttura musicale. Il nostro metodo funziona (1) distillando un modello di diffusione pre-addestrato per un campionamento veloce attraverso un processo efficiente e modificato di distillazione della consistenza o della traiettoria di consistenza, (2) eseguendo l'ottimizzazione durante l'inferenza utilizzando il nostro modello distillato con un campionamento in un solo passaggio come compito di ottimizzazione surrogato efficiente e (3) eseguendo una generazione finale con campionamento multi-passaggio (decodifica) utilizzando i nostri latenti di rumore stimati per una generazione controllabile, veloce e di alta qualità. Attraverso una valutazione approfondita, scopriamo che il nostro metodo non solo accelera la generazione di oltre 10-20 volte, ma migliora simultaneamente l'aderenza al controllo e la qualità della generazione. Inoltre, applichiamo il nostro approccio a una nuova applicazione per massimizzare l'aderenza al testo (punteggio CLAP) e dimostriamo di poter convertire un modello di diffusione incondizionato senza input di testo in un modello che offre un controllo testuale all'avanguardia. Esempi audio sono disponibili su https://ditto-music.github.io/ditto2/.
English
Controllable music generation methods are critical for human-centered
AI-based music creation, but are currently limited by speed, quality, and
control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in
particular, offers state-of-the-art results, but is over 10x slower than
real-time, limiting practical use. We propose Distilled Diffusion
Inference-Time T -Optimization (or DITTO-2), a new method to speed up
inference-time optimization-based control and unlock faster-than-real-time
generation for a wide-variety of applications such as music inpainting,
outpainting, intensity, melody, and musical structure control. Our method works
by (1) distilling a pre-trained diffusion model for fast sampling via an
efficient, modified consistency or consistency trajectory distillation process
(2) performing inference-time optimization using our distilled model with
one-step sampling as an efficient surrogate optimization task and (3) running a
final multi-step sampling generation (decoding) using our estimated noise
latents for best-quality, fast, controllable generation. Through thorough
evaluation, we find our method not only speeds up generation over 10-20x, but
simultaneously improves control adherence and generation quality all at once.
Furthermore, we apply our approach to a new application of maximizing text
adherence (CLAP score) and show we can convert an unconditional diffusion model
without text inputs into a model that yields state-of-the-art text control.
Sound examples can be found at https://ditto-music.github.io/ditto2/.