ChatPaper.aiChatPaper

JEN-1: Generazione Musicale Universale Guidata da Testo con Modelli di Diffusione Omnidirezionale

JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models

August 9, 2023
Autori: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI

Abstract

La generazione musicale ha attirato un interesse crescente con l'avanzamento dei modelli generativi profondi. Tuttavia, generare musica condizionata da descrizioni testuali, nota come text-to-music, rimane una sfida a causa della complessità delle strutture musicali e degli elevati requisiti di frequenza di campionamento. Nonostante l'importanza del compito, i modelli generativi prevalenti presentano limitazioni nella qualità della musica, nell'efficienza computazionale e nella generalizzazione. Questo articolo introduce JEN-1, un modello universale ad alta fedeltà per la generazione di musica da testo. JEN-1 è un modello di diffusione che incorpora sia l'addestramento autoregressivo che non autoregressivo. Attraverso l'apprendimento in contesto, JEN-1 esegue varie attività di generazione, tra cui la generazione musicale guidata da testo, il riempimento musicale e la continuazione. Le valutazioni dimostrano che JEN-1 supera i metodi all'avanguardia nell'allineamento testo-musica e nella qualità musicale, mantenendo al contempo l'efficienza computazionale. Le nostre demo sono disponibili all'indirizzo http://futureverse.com/research/jen/demos/jen1.
English
Music generation has attracted growing interest with the advancement of deep generative models. However, generating music conditioned on textual descriptions, known as text-to-music, remains challenging due to the complexity of musical structures and high sampling rate requirements. Despite the task's significance, prevailing generative models exhibit limitations in music quality, computational efficiency, and generalization. This paper introduces JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a diffusion model incorporating both autoregressive and non-autoregressive training. Through in-context learning, JEN-1 performs various generation tasks including text-guided music generation, music inpainting, and continuation. Evaluations demonstrate JEN-1's superior performance over state-of-the-art methods in text-music alignment and music quality while maintaining computational efficiency. Our demos are available at http://futureverse.com/research/jen/demos/jen1
PDF326December 15, 2024