ChatPaper.aiChatPaper

DITTO: Diffusie Inferentie-Tijd T-Optimalisatie voor Muziekgeneratie

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

January 22, 2024
Auteurs: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI

Samenvatting

We stellen Diffusion Inference-Time T-Optimization (DITTO) voor, een algemeen toepasbaar raamwerk voor het beheersen van vooraf getrainde tekst-naar-muziek diffusiemodellen tijdens de inferentie door het optimaliseren van initiële ruislatenten. Onze methode kan worden gebruikt om te optimaliseren via elk differentieerbaar kenmerk-matching verlies om een doelgericht (gestileerd) resultaat te bereiken en maakt gebruik van gradient checkpointing voor geheugenefficiëntie. We demonstreren een verrassend breed scala aan toepassingen voor muziekgeneratie, waaronder inpainting, outpainting en looping, evenals intensiteit, melodie en muzikale structuurcontrole – allemaal zonder ooit het onderliggende model te fine-tunen. Wanneer we onze aanpak vergelijken met gerelateerde trainings-, begeleidings- en optimalisatiegebaseerde methoden, vinden we dat DITTO state-of-the-art prestaties behaalt bij bijna alle taken, waaronder het overtreffen van vergelijkbare benaderingen op het gebied van beheersbaarheid, audiokwaliteit en computationele efficiëntie, waardoor de deur wordt geopend voor hoogwaardige, flexibele, trainingsvrije controle van diffusiemodellen. Geluidsvoorbeelden zijn te vinden op https://DITTO-Music.github.io/web/.
English
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control - all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/.
PDF212December 15, 2024