JEN-1: Geração Universal de Música Orientada por Texto com Modelos de Difusão Omnidirecional
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
August 9, 2023
Autores: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI
Resumo
A geração de música tem atraído interesse crescente com o avanço dos modelos generativos profundos. No entanto, gerar música condicionada a descrições textuais, conhecida como texto-para-música, continua sendo um desafio devido à complexidade das estruturas musicais e aos requisitos de alta taxa de amostragem. Apesar da importância da tarefa, os modelos generativos predominantes apresentam limitações em qualidade musical, eficiência computacional e generalização. Este artigo apresenta o JEN-1, um modelo universal de alta fidelidade para geração de texto-para-música. O JEN-1 é um modelo de difusão que incorpora treinamento tanto autoregressivo quanto não autoregressivo. Por meio de aprendizado em contexto, o JEN-1 realiza várias tarefas de geração, incluindo geração de música guiada por texto, preenchimento de música e continuação. As avaliações demonstram o desempenho superior do JEN-1 em relação aos métodos mais avançados em alinhamento texto-música e qualidade musical, mantendo a eficiência computacional. Nossas demonstrações estão disponíveis em http://futureverse.com/research/jen/demos/jen1.
English
Music generation has attracted growing interest with the advancement of deep
generative models. However, generating music conditioned on textual
descriptions, known as text-to-music, remains challenging due to the complexity
of musical structures and high sampling rate requirements. Despite the task's
significance, prevailing generative models exhibit limitations in music
quality, computational efficiency, and generalization. This paper introduces
JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a
diffusion model incorporating both autoregressive and non-autoregressive
training. Through in-context learning, JEN-1 performs various generation tasks
including text-guided music generation, music inpainting, and continuation.
Evaluations demonstrate JEN-1's superior performance over state-of-the-art
methods in text-music alignment and music quality while maintaining
computational efficiency. Our demos are available at
http://futureverse.com/research/jen/demos/jen1