ChatPaper.aiChatPaper

JEN-1: Generación Universal de Música Guiada por Texto con Modelos de Difusión Omnidireccional

JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models

August 9, 2023
Autores: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI

Resumen

La generación de música ha atraído un interés creciente con el avance de los modelos generativos profundos. Sin embargo, generar música condicionada por descripciones textuales, conocido como texto-a-música, sigue siendo un desafío debido a la complejidad de las estructuras musicales y los altos requisitos de tasa de muestreo. A pesar de la importancia de esta tarea, los modelos generativos predominantes muestran limitaciones en la calidad de la música, la eficiencia computacional y la generalización. Este artículo presenta JEN-1, un modelo universal de alta fidelidad para la generación de texto-a-música. JEN-1 es un modelo de difusión que incorpora entrenamiento tanto autorregresivo como no autorregresivo. A través del aprendizaje en contexto, JEN-1 realiza diversas tareas de generación, incluyendo la generación de música guiada por texto, la restauración de música y la continuación. Las evaluaciones demuestran que JEN-1 supera a los métodos más avanzados en la alineación texto-música y la calidad de la música, manteniendo la eficiencia computacional. Nuestras demostraciones están disponibles en http://futureverse.com/research/jen/demos/jen1.
English
Music generation has attracted growing interest with the advancement of deep generative models. However, generating music conditioned on textual descriptions, known as text-to-music, remains challenging due to the complexity of musical structures and high sampling rate requirements. Despite the task's significance, prevailing generative models exhibit limitations in music quality, computational efficiency, and generalization. This paper introduces JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a diffusion model incorporating both autoregressive and non-autoregressive training. Through in-context learning, JEN-1 performs various generation tasks including text-guided music generation, music inpainting, and continuation. Evaluations demonstrate JEN-1's superior performance over state-of-the-art methods in text-music alignment and music quality while maintaining computational efficiency. Our demos are available at http://futureverse.com/research/jen/demos/jen1
PDF326December 15, 2024