ChatPaper.aiChatPaper

JEN-1 : Génération musicale universelle guidée par texte avec modèles de diffusion omnidirectionnelle

JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models

August 9, 2023
papers.authors: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI

papers.abstract

La génération musicale a suscité un intérêt croissant avec les progrès des modèles génératifs profonds. Cependant, générer de la musique conditionnée par des descriptions textuelles, connue sous le nom de texte-à-musique, reste un défi en raison de la complexité des structures musicales et des exigences élevées en matière de taux d'échantillonnage. Malgré l'importance de cette tâche, les modèles génératifs actuels présentent des limitations en termes de qualité musicale, d'efficacité computationnelle et de généralisation. Cet article présente JEN-1, un modèle universel haute fidélité pour la génération de texte-à-musique. JEN-1 est un modèle de diffusion intégrant à la fois un entraînement autorégressif et non autorégressif. Grâce à l'apprentissage en contexte, JEN-1 réalise diverses tâches de génération, notamment la génération musicale guidée par le texte, le remplissage musical et la continuation. Les évaluations démontrent la performance supérieure de JEN-1 par rapport aux méthodes de pointe en matière d'alignement texte-musique et de qualité musicale, tout en maintenant une efficacité computationnelle. Nos démonstrations sont disponibles à l'adresse suivante : http://futureverse.com/research/jen/demos/jen1
English
Music generation has attracted growing interest with the advancement of deep generative models. However, generating music conditioned on textual descriptions, known as text-to-music, remains challenging due to the complexity of musical structures and high sampling rate requirements. Despite the task's significance, prevailing generative models exhibit limitations in music quality, computational efficiency, and generalization. This paper introduces JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a diffusion model incorporating both autoregressive and non-autoregressive training. Through in-context learning, JEN-1 performs various generation tasks including text-guided music generation, music inpainting, and continuation. Evaluations demonstrate JEN-1's superior performance over state-of-the-art methods in text-music alignment and music quality while maintaining computational efficiency. Our demos are available at http://futureverse.com/research/jen/demos/jen1
PDF326December 15, 2024