JEN-1: Textgesteuerte universelle Musikerzeugung mit omnidirektionalen Diffusionsmodellen
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
August 9, 2023
papers.authors: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI
papers.abstract
Die Musikgenerierung hat mit den Fortschritten bei tiefen generativen Modellen zunehmendes Interesse geweckt. Die Erzeugung von Musik, die auf textuellen Beschreibungen basiert, bekannt als Text-zu-Musik, bleibt jedoch aufgrund der Komplexität musikalischer Strukturen und der hohen Anforderungen an die Abtastrate eine Herausforderung. Trotz der Bedeutung dieser Aufgabe weisen vorherrschende generative Modelle Einschränkungen in Bezug auf Musikqualität, Recheneffizienz und Generalisierung auf. Dieses Papier stellt JEN-1 vor, ein universelles Hochfidelitätsmodell für die Text-zu-Musik-Generierung. JEN-1 ist ein Diffusionsmodell, das sowohl autoregressives als auch nicht-autoregressives Training integriert. Durch In-Context-Learning führt JEN-1 verschiedene Generierungsaufgaben durch, darunter textgesteuerte Musikgenerierung, Musikinpainting und Fortsetzung. Evaluierungen zeigen, dass JEN-1 in Bezug auf Text-Musik-Alignment und Musikqualität state-of-the-art-Methoden übertrifft und dabei die Recheneffizienz beibehält. Unsere Demos sind verfügbar unter http://futureverse.com/research/jen/demos/jen1.
English
Music generation has attracted growing interest with the advancement of deep
generative models. However, generating music conditioned on textual
descriptions, known as text-to-music, remains challenging due to the complexity
of musical structures and high sampling rate requirements. Despite the task's
significance, prevailing generative models exhibit limitations in music
quality, computational efficiency, and generalization. This paper introduces
JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a
diffusion model incorporating both autoregressive and non-autoregressive
training. Through in-context learning, JEN-1 performs various generation tasks
including text-guided music generation, music inpainting, and continuation.
Evaluations demonstrate JEN-1's superior performance over state-of-the-art
methods in text-music alignment and music quality while maintaining
computational efficiency. Our demos are available at
http://futureverse.com/research/jen/demos/jen1