DITTO-2 : Optimisation T en temps d'inférence par distillation de diffusion pour la génération musicale
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation
May 30, 2024
Auteurs: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan
cs.AI
Résumé
Les méthodes de génération musicale contrôlable sont essentielles pour la création musicale basée sur l'IA centrée sur l'humain, mais elles sont actuellement limitées par des compromis entre vitesse, qualité et conception du contrôle. L'optimisation T au moment de l'inférence par diffusion (DITTO), en particulier, offre des résultats de pointe, mais est plus de 10 fois plus lente que le temps réel, limitant son utilisation pratique. Nous proposons l'optimisation T au moment de l'inférence par diffusion distillée (ou DITTO-2), une nouvelle méthode pour accélérer le contrôle basé sur l'optimisation au moment de l'inférence et permettre une génération plus rapide que le temps réel pour une grande variété d'applications telles que l'inpainting musical, l'outpainting, l'intensité, la mélodie et le contrôle de la structure musicale. Notre méthode fonctionne en (1) distillant un modèle de diffusion pré-entraîné pour un échantillonnage rapide via un processus de distillation de consistance ou de trajectoire de consistance modifié et efficace, (2) en effectuant une optimisation au moment de l'inférence en utilisant notre modèle distillé avec un échantillonnage en une étape comme tâche d'optimisation substitutive efficace et (3) en exécutant une génération finale d'échantillonnage multi-étapes (décodage) en utilisant nos latents de bruit estimés pour une génération contrôlable, rapide et de meilleure qualité. Grâce à une évaluation approfondie, nous constatons que notre méthode non seulement accélère la génération de plus de 10 à 20 fois, mais améliore simultanément l'adhérence au contrôle et la qualité de génération. De plus, nous appliquons notre approche à une nouvelle application de maximisation de l'adhérence au texte (score CLAP) et montrons que nous pouvons convertir un modèle de diffusion inconditionnel sans entrées de texte en un modèle qui offre un contrôle textuel de pointe. Des exemples sonores peuvent être trouvés à l'adresse https://ditto-music.github.io/ditto2/.
English
Controllable music generation methods are critical for human-centered
AI-based music creation, but are currently limited by speed, quality, and
control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in
particular, offers state-of-the-art results, but is over 10x slower than
real-time, limiting practical use. We propose Distilled Diffusion
Inference-Time T -Optimization (or DITTO-2), a new method to speed up
inference-time optimization-based control and unlock faster-than-real-time
generation for a wide-variety of applications such as music inpainting,
outpainting, intensity, melody, and musical structure control. Our method works
by (1) distilling a pre-trained diffusion model for fast sampling via an
efficient, modified consistency or consistency trajectory distillation process
(2) performing inference-time optimization using our distilled model with
one-step sampling as an efficient surrogate optimization task and (3) running a
final multi-step sampling generation (decoding) using our estimated noise
latents for best-quality, fast, controllable generation. Through thorough
evaluation, we find our method not only speeds up generation over 10-20x, but
simultaneously improves control adherence and generation quality all at once.
Furthermore, we apply our approach to a new application of maximizing text
adherence (CLAP score) and show we can convert an unconditional diffusion model
without text inputs into a model that yields state-of-the-art text control.
Sound examples can be found at https://ditto-music.github.io/ditto2/.Summary
AI-Generated Summary