DITTO-2: Gedistilleerde Diffusie Inferentie-Tijd T-Optimalisatie voor Muziekgeneratie
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation
May 30, 2024
Auteurs: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan
cs.AI
Samenvatting
Beheersbare muziekgeneratiemethoden zijn cruciaal voor mensgerichte, AI-gebaseerde muziekcreatie, maar worden momenteel beperkt door snelheid, kwaliteit en afwegingen in controledesign. Diffusion Inference-Time T-optimization (DITTO) biedt in het bijzonder state-of-the-art resultaten, maar is meer dan 10x langzamer dan realtime, wat het praktische gebruik beperkt. Wij stellen Distilled Diffusion Inference-Time T-Optimization (of DITTO-2) voor, een nieuwe methode om inference-time optimalisatiegebaseerde controle te versnellen en sneller-dan-realtime generatie mogelijk te maken voor een breed scala aan toepassingen zoals muziekinpainting, outpaintin, intensiteit, melodie en muzikale structuurcontrole. Onze methode werkt door (1) een vooraf getraind diffusiemodel te destilleren voor snelle sampling via een efficiënt, aangepast consistentie- of consistentietrajectdestillatieproces, (2) inference-time optimalisatie uit te voeren met ons gedestilleerde model met één-stap sampling als een efficiënte surrogaatoptimalisatietaak en (3) een finale multi-stap sampling generatie (decodering) uit te voeren met onze geschatte ruislatenten voor hoogwaardige, snelle, beheersbare generatie. Door grondige evaluatie ontdekken we dat onze methode niet alleen de generatie met meer dan 10-20x versnelt, maar tegelijkertijd ook de controle-adherentie en generatiekwaliteit verbetert. Bovendien passen we onze aanpak toe op een nieuwe toepassing van het maximaliseren van tekstadherentie (CLAP-score) en tonen we aan dat we een onvoorwaardelijk diffusiemodel zonder tekstinputs kunnen omzetten in een model dat state-of-the-art tekstcontrole oplevert. Geluidsvoorbeelden zijn te vinden op https://ditto-music.github.io/ditto2/.
English
Controllable music generation methods are critical for human-centered
AI-based music creation, but are currently limited by speed, quality, and
control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in
particular, offers state-of-the-art results, but is over 10x slower than
real-time, limiting practical use. We propose Distilled Diffusion
Inference-Time T -Optimization (or DITTO-2), a new method to speed up
inference-time optimization-based control and unlock faster-than-real-time
generation for a wide-variety of applications such as music inpainting,
outpainting, intensity, melody, and musical structure control. Our method works
by (1) distilling a pre-trained diffusion model for fast sampling via an
efficient, modified consistency or consistency trajectory distillation process
(2) performing inference-time optimization using our distilled model with
one-step sampling as an efficient surrogate optimization task and (3) running a
final multi-step sampling generation (decoding) using our estimated noise
latents for best-quality, fast, controllable generation. Through thorough
evaluation, we find our method not only speeds up generation over 10-20x, but
simultaneously improves control adherence and generation quality all at once.
Furthermore, we apply our approach to a new application of maximizing text
adherence (CLAP score) and show we can convert an unconditional diffusion model
without text inputs into a model that yields state-of-the-art text control.
Sound examples can be found at https://ditto-music.github.io/ditto2/.