JEN-1: Generazione Musicale Universale Guidata da Testo con Modelli di Diffusione Omnidirezionale
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
August 9, 2023
Autori: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI
Abstract
La generazione musicale ha attirato un interesse crescente con l'avanzamento dei modelli generativi profondi. Tuttavia, generare musica condizionata da descrizioni testuali, nota come text-to-music, rimane una sfida a causa della complessità delle strutture musicali e degli elevati requisiti di frequenza di campionamento. Nonostante l'importanza del compito, i modelli generativi prevalenti presentano limitazioni nella qualità della musica, nell'efficienza computazionale e nella generalizzazione. Questo articolo introduce JEN-1, un modello universale ad alta fedeltà per la generazione di musica da testo. JEN-1 è un modello di diffusione che incorpora sia l'addestramento autoregressivo che non autoregressivo. Attraverso l'apprendimento in contesto, JEN-1 esegue varie attività di generazione, tra cui la generazione musicale guidata da testo, il riempimento musicale e la continuazione. Le valutazioni dimostrano che JEN-1 supera i metodi all'avanguardia nell'allineamento testo-musica e nella qualità musicale, mantenendo al contempo l'efficienza computazionale. Le nostre demo sono disponibili all'indirizzo http://futureverse.com/research/jen/demos/jen1.
English
Music generation has attracted growing interest with the advancement of deep
generative models. However, generating music conditioned on textual
descriptions, known as text-to-music, remains challenging due to the complexity
of musical structures and high sampling rate requirements. Despite the task's
significance, prevailing generative models exhibit limitations in music
quality, computational efficiency, and generalization. This paper introduces
JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a
diffusion model incorporating both autoregressive and non-autoregressive
training. Through in-context learning, JEN-1 performs various generation tasks
including text-guided music generation, music inpainting, and continuation.
Evaluations demonstrate JEN-1's superior performance over state-of-the-art
methods in text-music alignment and music quality while maintaining
computational efficiency. Our demos are available at
http://futureverse.com/research/jen/demos/jen1