JEN-1: Универсальная генерация музыки на основе текста с использованием всесторонних диффузионных моделей
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
August 9, 2023
Авторы: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI
Аннотация
Генерация музыки привлекает все больший интерес с развитием глубоких генеративных моделей. Однако создание музыки, обусловленной текстовыми описаниями, известное как текст-в-музыку, остается сложной задачей из-за сложности музыкальных структур и высоких требований к частоте дискретизации. Несмотря на важность этой задачи, преобладающие генеративные модели демонстрируют ограничения в качестве музыки, вычислительной эффективности и обобщаемости. В данной статье представлена JEN-1 — универсальная высококачественная модель для генерации музыки из текста. JEN-1 представляет собой диффузионную модель, сочетающую как авторегрессивное, так и неавторегрессивное обучение. Благодаря обучению в контексте, JEN-1 выполняет различные задачи генерации, включая создание музыки по текстовым указаниям, восстановление и продолжение музыкальных фрагментов. Оценки показывают превосходство JEN-1 по сравнению с современными методами в согласованности текста и музыки, а также в качестве музыки, при сохранении вычислительной эффективности. Наши демонстрации доступны по адресу http://futureverse.com/research/jen/demos/jen1.
English
Music generation has attracted growing interest with the advancement of deep
generative models. However, generating music conditioned on textual
descriptions, known as text-to-music, remains challenging due to the complexity
of musical structures and high sampling rate requirements. Despite the task's
significance, prevailing generative models exhibit limitations in music
quality, computational efficiency, and generalization. This paper introduces
JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a
diffusion model incorporating both autoregressive and non-autoregressive
training. Through in-context learning, JEN-1 performs various generation tasks
including text-guided music generation, music inpainting, and continuation.
Evaluations demonstrate JEN-1's superior performance over state-of-the-art
methods in text-music alignment and music quality while maintaining
computational efficiency. Our demos are available at
http://futureverse.com/research/jen/demos/jen1