Modèles de Cohérence Musicale
Music Consistency Models
April 20, 2024
Auteurs: Zhengcong Fei, Mingyuan Fan, Junshi Huang
cs.AI
Résumé
Les modèles de cohérence ont démontré des capacités remarquables pour faciliter la génération efficace d'images et de vidéos, permettant une synthèse avec un nombre minimal d'étapes d'échantillonnage. Ils se sont avérés avantageux pour atténuer les charges de calcul associées aux modèles de diffusion. Cependant, l'application des modèles de cohérence à la génération musicale reste largement inexplorée. Pour combler cette lacune, nous présentons les Music Consistency Models (MusicCM), qui exploitent le concept des modèles de cohérence pour synthétiser efficacement des mél-spectrogrammes pour des extraits musicaux, tout en maintenant une qualité élevée et en minimisant le nombre d'étapes d'échantillonnage. S'appuyant sur les modèles de diffusion existants pour la génération de musique à partir de texte, le modèle MusicCM intègre une distillation de cohérence et un entraînement par discriminateur adversarial. De plus, nous trouvons bénéfique de générer de la musique cohérente et étendue en incorporant plusieurs processus de diffusion avec des contraintes partagées. Les résultats expérimentaux révèlent l'efficacité de notre modèle en termes d'efficacité computationnelle, de fidélité et de naturel. Notamment, MusicCM réalise une synthèse musicale fluide avec seulement quatre étapes d'échantillonnage, par exemple, une seule seconde par minute d'extrait musical, démontrant ainsi un potentiel pour des applications en temps réel.
English
Consistency models have exhibited remarkable capabilities in facilitating
efficient image/video generation, enabling synthesis with minimal sampling
steps. It has proven to be advantageous in mitigating the computational burdens
associated with diffusion models. Nevertheless, the application of consistency
models in music generation remains largely unexplored. To address this gap, we
present Music Consistency Models (MusicCM), which leverages the
concept of consistency models to efficiently synthesize mel-spectrogram for
music clips, maintaining high quality while minimizing the number of sampling
steps. Building upon existing text-to-music diffusion models, the
MusicCM model incorporates consistency distillation and adversarial
discriminator training. Moreover, we find it beneficial to generate extended
coherent music by incorporating multiple diffusion processes with shared
constraints. Experimental results reveal the effectiveness of our model in
terms of computational efficiency, fidelity, and naturalness. Notable,
MusicCM achieves seamless music synthesis with a mere four sampling
steps, e.g., only one second per minute of the music clip, showcasing the
potential for real-time application.Summary
AI-Generated Summary