JEN-1: Universele muziekgeneratie met tekstbegeleiding via omnidirectionele diffusiemodellen
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
August 9, 2023
Auteurs: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI
Samenvatting
Muziekgeneratie heeft een groeiende interesse gewekt met de vooruitgang van diepe generatieve modellen. Het genereren van muziek op basis van tekstuele beschrijvingen, bekend als tekst-naar-muziek, blijft echter uitdagend vanwege de complexiteit van muzikale structuren en de hoge samplefrequentievereisten. Ondanks het belang van deze taak vertonen heersende generatieve modellen beperkingen in muziekkwaliteit, computationele efficiëntie en generalisatie. Dit artikel introduceert JEN-1, een universeel hoogwaardig model voor tekst-naar-muziekgeneratie. JEN-1 is een diffusiemodel dat zowel autoregressieve als niet-autoregressieve training omvat. Door in-context learning voert JEN-1 verschillende generatietaken uit, waaronder tekstgestuurde muziekgeneratie, muziekinpainting en voortzetting. Evaluaties tonen aan dat JEN-1 superieure prestaties levert in vergelijking met state-of-the-art methoden op het gebied van tekst-muziekalignering en muziekkwaliteit, terwijl het computationele efficiëntie behoudt. Onze demo's zijn beschikbaar op http://futureverse.com/research/jen/demos/jen1.
English
Music generation has attracted growing interest with the advancement of deep
generative models. However, generating music conditioned on textual
descriptions, known as text-to-music, remains challenging due to the complexity
of musical structures and high sampling rate requirements. Despite the task's
significance, prevailing generative models exhibit limitations in music
quality, computational efficiency, and generalization. This paper introduces
JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a
diffusion model incorporating both autoregressive and non-autoregressive
training. Through in-context learning, JEN-1 performs various generation tasks
including text-guided music generation, music inpainting, and continuation.
Evaluations demonstrate JEN-1's superior performance over state-of-the-art
methods in text-music alignment and music quality while maintaining
computational efficiency. Our demos are available at
http://futureverse.com/research/jen/demos/jen1