ChatPaper.aiChatPaper

Modèles de Cohérence Musicale

Music Consistency Models

April 20, 2024
Auteurs: Zhengcong Fei, Mingyuan Fan, Junshi Huang
cs.AI

Résumé

Les modèles de cohérence ont démontré des capacités remarquables pour faciliter la génération efficace d'images et de vidéos, permettant une synthèse avec un nombre minimal d'étapes d'échantillonnage. Ils se sont avérés avantageux pour atténuer les charges de calcul associées aux modèles de diffusion. Cependant, l'application des modèles de cohérence à la génération musicale reste largement inexplorée. Pour combler cette lacune, nous présentons les Music Consistency Models (MusicCM), qui exploitent le concept des modèles de cohérence pour synthétiser efficacement des mél-spectrogrammes pour des extraits musicaux, tout en maintenant une qualité élevée et en minimisant le nombre d'étapes d'échantillonnage. S'appuyant sur les modèles de diffusion existants pour la génération de musique à partir de texte, le modèle MusicCM intègre une distillation de cohérence et un entraînement par discriminateur adversarial. De plus, nous trouvons bénéfique de générer de la musique cohérente et étendue en incorporant plusieurs processus de diffusion avec des contraintes partagées. Les résultats expérimentaux révèlent l'efficacité de notre modèle en termes d'efficacité computationnelle, de fidélité et de naturel. Notamment, MusicCM réalise une synthèse musicale fluide avec seulement quatre étapes d'échantillonnage, par exemple, une seule seconde par minute d'extrait musical, démontrant ainsi un potentiel pour des applications en temps réel.
English
Consistency models have exhibited remarkable capabilities in facilitating efficient image/video generation, enabling synthesis with minimal sampling steps. It has proven to be advantageous in mitigating the computational burdens associated with diffusion models. Nevertheless, the application of consistency models in music generation remains largely unexplored. To address this gap, we present Music Consistency Models (MusicCM), which leverages the concept of consistency models to efficiently synthesize mel-spectrogram for music clips, maintaining high quality while minimizing the number of sampling steps. Building upon existing text-to-music diffusion models, the MusicCM model incorporates consistency distillation and adversarial discriminator training. Moreover, we find it beneficial to generate extended coherent music by incorporating multiple diffusion processes with shared constraints. Experimental results reveal the effectiveness of our model in terms of computational efficiency, fidelity, and naturalness. Notable, MusicCM achieves seamless music synthesis with a mere four sampling steps, e.g., only one second per minute of the music clip, showcasing the potential for real-time application.

Summary

AI-Generated Summary

PDF143December 15, 2024