ChatPaper.aiChatPaper

DITTO : Optimisation T en Temps d'Inférence par Diffusion pour la Génération Musicale

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

January 22, 2024
Auteurs: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI

Résumé

Nous proposons Diffusion Inference-Time T-Optimization (DITTO), un cadre général pour contrôler des modèles de diffusion pré-entraînés de texte-à-musique au moment de l'inférence via l'optimisation des latents de bruit initial. Notre méthode peut être utilisée pour optimiser à travers toute fonction de perte différentiable de correspondance de caractéristiques afin d'obtenir une sortie cible (stylisée) et tire parti du gradient checkpointing pour une efficacité mémoire. Nous démontrons une gamme étonnamment large d'applications pour la génération musicale, incluant l'inpainting, l'outpainting, le bouclage ainsi que le contrôle de l'intensité, de la mélodie et de la structure musicale - le tout sans jamais affiner le modèle sous-jacent. Lorsque nous comparons notre approche à des méthodes connexes basées sur l'entraînement, le guidage et l'optimisation, nous constatons que DITTO atteint des performances de pointe sur presque toutes les tâches, surpassant notamment les approches comparables en termes de contrôlabilité, de qualité audio et d'efficacité computationnelle, ouvrant ainsi la voie à un contrôle de haute qualité, flexible et sans entraînement des modèles de diffusion. Des exemples sonores sont disponibles à l'adresse https://DITTO-Music.github.io/web/.
English
We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control - all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/.
PDF222December 15, 2024