DITTO-2: Ottimizzazione T al Momento dell'Inferenza per la Generazione Musicale tramite Distillazione della Diffusione

Abstract

I metodi di generazione musicale controllabile sono fondamentali per la creazione musicale basata sull'IA centrata sull'uomo, ma sono attualmente limitati da compromessi tra velocità, qualità e progettazione del controllo. In particolare, la Diffusion Inference-Time T-optimization (DITTO) offre risultati all'avanguardia, ma è oltre 10 volte più lenta del tempo reale, limitando l'uso pratico. Proponiamo la Distilled Diffusion Inference-Time T-Optimization (o DITTO-2), un nuovo metodo per accelerare l'ottimizzazione basata sul controllo durante l'inferenza e sbloccare una generazione più veloce del tempo reale per una vasta gamma di applicazioni come l'inpainting musicale, l'outpainting, il controllo dell'intensità, della melodia e della struttura musicale. Il nostro metodo funziona (1) distillando un modello di diffusione pre-addestrato per un campionamento veloce attraverso un processo efficiente e modificato di distillazione della consistenza o della traiettoria di consistenza, (2) eseguendo l'ottimizzazione durante l'inferenza utilizzando il nostro modello distillato con un campionamento in un solo passaggio come compito di ottimizzazione surrogato efficiente e (3) eseguendo una generazione finale con campionamento multi-passaggio (decodifica) utilizzando i nostri latenti di rumore stimati per una generazione controllabile, veloce e di alta qualità. Attraverso una valutazione approfondita, scopriamo che il nostro metodo non solo accelera la generazione di oltre 10-20 volte, ma migliora simultaneamente l'aderenza al controllo e la qualità della generazione. Inoltre, applichiamo il nostro approccio a una nuova applicazione per massimizzare l'aderenza al testo (punteggio CLAP) e dimostriamo di poter convertire un modello di diffusione incondizionato senza input di testo in un modello che offre un controllo testuale all'avanguardia. Esempi audio sono disponibili su https://ditto-music.github.io/ditto2/.

English

Controllable music generation methods are critical for human-centered AI-based music creation, but are currently limited by speed, quality, and control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in particular, offers state-of-the-art results, but is over 10x slower than real-time, limiting practical use. We propose Distilled Diffusion Inference-Time T -Optimization (or DITTO-2), a new method to speed up inference-time optimization-based control and unlock faster-than-real-time generation for a wide-variety of applications such as music inpainting, outpainting, intensity, melody, and musical structure control. Our method works by (1) distilling a pre-trained diffusion model for fast sampling via an efficient, modified consistency or consistency trajectory distillation process (2) performing inference-time optimization using our distilled model with one-step sampling as an efficient surrogate optimization task and (3) running a final multi-step sampling generation (decoding) using our estimated noise latents for best-quality, fast, controllable generation. Through thorough evaluation, we find our method not only speeds up generation over 10-20x, but simultaneously improves control adherence and generation quality all at once. Furthermore, we apply our approach to a new application of maximizing text adherence (CLAP score) and show we can convert an unconditional diffusion model without text inputs into a model that yields state-of-the-art text control. Sound examples can be found at https://ditto-music.github.io/ditto2/.

DITTO-2: Ottimizzazione T al Momento dell'Inferenza per la Generazione Musicale tramite Distillazione della Diffusione

DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

Abstract

Support