DITTO: Ottimizzazione T al Tempo di Inferenza con Diffusione per la Generazione Musicale
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
January 22, 2024
Autori: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Abstract
Proponiamo Diffusion Inference-Time T-Optimization (DITTO), un framework generico per il controllo di modelli di diffusione pre-addestrati da testo a musica durante l'inferenza, ottimizzando i latenti del rumore iniziale. Il nostro metodo può essere utilizzato per ottimizzare qualsiasi funzione di perdita differenziabile basata sul matching di feature, al fine di ottenere un output (stilizzato) desiderato, e sfrutta il gradient checkpointing per l'efficienza della memoria. Dimostriamo una sorprendente gamma di applicazioni per la generazione musicale, tra cui inpainting, outpainting, looping, nonché il controllo di intensità, melodia e struttura musicale, tutto senza mai fine-tunare il modello sottostante. Confrontando il nostro approccio con metodi correlati basati su addestramento, guida e ottimizzazione, riscontriamo che DITTO raggiunge prestazioni all'avanguardia in quasi tutti i compiti, superando approcci comparabili in termini di controllabilità, qualità audio ed efficienza computazionale, aprendo così la strada a un controllo di alta qualità, flessibile e senza addestramento per i modelli di diffusione. Esempi audio sono disponibili su https://DITTO-Music.github.io/web/.
English
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose
frame-work for controlling pre-trained text-to-music diffusion models at
inference-time via optimizing initial noise latents. Our method can be used to
optimize through any differentiable feature matching loss to achieve a target
(stylized) output and leverages gradient checkpointing for memory efficiency.
We demonstrate a surprisingly wide-range of applications for music generation
including inpainting, outpainting, and looping as well as intensity, melody,
and musical structure control - all without ever fine-tuning the underlying
model. When we compare our approach against related training, guidance, and
optimization-based methods, we find DITTO achieves state-of-the-art performance
on nearly all tasks, including outperforming comparable approaches on
controllability, audio quality, and computational efficiency, thus opening the
door for high-quality, flexible, training-free control of diffusion models.
Sound examples can be found at https://DITTO-Music.github.io/web/.