JEN-1:全方向拡散モデルを用いたテキスト誘導型汎用音楽生成
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
August 9, 2023
著者: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
cs.AI
要旨
深層生成モデルの進展に伴い、音楽生成への関心が高まっています。しかし、テキスト記述に基づく音楽生成、いわゆるテキストtoミュージックは、音楽構造の複雑さと高いサンプリングレートの要件から、依然として困難な課題です。このタスクの重要性にもかかわらず、既存の生成モデルは音楽の品質、計算効率、汎化性能において制約があります。本論文では、テキストtoミュージック生成のための汎用的な高忠実度モデルであるJEN-1を紹介します。JEN-1は、自己回帰型と非自己回帰型のトレーニングを組み合わせた拡散モデルです。インコンテキスト学習を通じて、JEN-1はテキストガイドによる音楽生成、音楽インペインティング、継続など、さまざまな生成タスクを実行します。評価結果は、JEN-1がテキストと音楽の整合性および音楽品質において最先端の手法を上回り、計算効率を維持していることを示しています。デモはhttp://futureverse.com/research/jen/demos/jen1でご覧いただけます。
English
Music generation has attracted growing interest with the advancement of deep
generative models. However, generating music conditioned on textual
descriptions, known as text-to-music, remains challenging due to the complexity
of musical structures and high sampling rate requirements. Despite the task's
significance, prevailing generative models exhibit limitations in music
quality, computational efficiency, and generalization. This paper introduces
JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a
diffusion model incorporating both autoregressive and non-autoregressive
training. Through in-context learning, JEN-1 performs various generation tasks
including text-guided music generation, music inpainting, and continuation.
Evaluations demonstrate JEN-1's superior performance over state-of-the-art
methods in text-music alignment and music quality while maintaining
computational efficiency. Our demos are available at
http://futureverse.com/research/jen/demos/jen1