JEN-1: 전방위 확산 모델을 활용한 텍스트 기반 범용 음악 생성
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
August 9, 2023
저자: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI
초록
음악 생성은 딥 생성 모델의 발전과 함께 점점 더 많은 관심을 받고 있습니다. 그러나 텍스트 설명에 기반한 음악 생성, 즉 텍스트-투-뮤직(text-to-music)은 음악 구조의 복잡성과 높은 샘플링 속도 요구 사항으로 인해 여전히 어려운 과제로 남아 있습니다. 이 작업의 중요성에도 불구하고, 기존의 생성 모델들은 음악 품질, 계산 효율성, 그리고 일반화 능력에서 한계를 보여줍니다. 본 논문은 텍스트-투-뮤직 생성을 위한 범용 고품질 모델인 JEN-1을 소개합니다. JEN-1은 자기회귀적(autoregressive) 및 비자기회귀적(non-autoregressive) 훈련을 모두 통합한 확산 모델(diffusion model)입니다. JEN-1은 컨텍스트 내 학습(in-context learning)을 통해 텍스트 기반 음악 생성, 음악 인페인팅(inpainting), 그리고 음악 연속 생성과 같은 다양한 생성 작업을 수행합니다. 평가 결과, JEN-1은 텍스트-음악 정렬 및 음악 품질에서 최신 방법들을 능가하는 우수한 성능을 보이면서도 계산 효율성을 유지합니다. 데모는 http://futureverse.com/research/jen/demos/jen1에서 확인할 수 있습니다.
English
Music generation has attracted growing interest with the advancement of deep
generative models. However, generating music conditioned on textual
descriptions, known as text-to-music, remains challenging due to the complexity
of musical structures and high sampling rate requirements. Despite the task's
significance, prevailing generative models exhibit limitations in music
quality, computational efficiency, and generalization. This paper introduces
JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a
diffusion model incorporating both autoregressive and non-autoregressive
training. Through in-context learning, JEN-1 performs various generation tasks
including text-guided music generation, music inpainting, and continuation.
Evaluations demonstrate JEN-1's superior performance over state-of-the-art
methods in text-music alignment and music quality while maintaining
computational efficiency. Our demos are available at
http://futureverse.com/research/jen/demos/jen1