ChatPaper.aiChatPaper

YuE: 長尺音楽生成のためのオープン基盤モデルのスケーリング

YuE: Scaling Open Foundation Models for Long-Form Music Generation

March 11, 2025
著者: Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo
cs.AI

要旨

長編音楽生成、特に挑戦的な歌詞から楽曲への変換問題に取り組むため、LLaMA2アーキテクチャに基づくオープンな基盤モデルファミリーであるYuEを導入します。具体的には、YuEは数兆トークンにスケールし、最大5分間の音楽を生成しながら、歌詞の整合性、一貫した音楽構造、適切な伴奏を伴う魅力的なボーカルメロディーを維持します。これを実現するために、(1) 密な混合信号を克服するためのトラック分離型次トークン予測、(2) 長文脈の歌詞整合性のための構造的漸進的コンディショニング、(3) 収束と汎化のためのマルチタスク・マルチフェーズ事前学習レシピを採用しています。さらに、音楽生成のためのインコンテキスト学習技術を再設計し、多様なスタイル転送(例えば、日本のシティポップを英語のラップに変換しながら元の伴奏を保持)や双方向生成を可能にします。広範な評価を通じて、YuEが音楽性とボーカルの機敏性において一部のプロプライエタリシステムに匹敵し、あるいは凌駕することを実証します。さらに、YuEのファインチューニングにより、追加の制御と低頻度言語の強化サポートが可能になります。また、生成を超えて、YuEの学習表現が音楽理解タスクにおいても優れた性能を発揮し、MARBLEベンチマークにおいて最先端の手法に匹敵またはそれを上回る結果を示します。キーワード: 歌詞から楽曲、楽曲生成、長編、基盤モデル、音楽生成
English
We tackle the task of long-form music generation--particularly the challenging lyrics-to-song problem--by introducing YuE, a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. It achieves this through (1) track-decoupled next-token prediction to overcome dense mixture signals, (2) structural progressive conditioning for long-context lyrical alignment, and (3) a multitask, multiphase pre-training recipe to converge and generalize. In addition, we redesign the in-context learning technique for music generation, enabling versatile style transfer (e.g., converting Japanese city pop into an English rap while preserving the original accompaniment) and bidirectional generation. Through extensive evaluation, we demonstrate that YuE matches or even surpasses some of the proprietary systems in musicality and vocal agility. In addition, fine-tuning YuE enables additional controls and enhanced support for tail languages. Furthermore, beyond generation, we show that YuE's learned representations can perform well on music understanding tasks, where the results of YuE match or exceed state-of-the-art methods on the MARBLE benchmark. Keywords: lyrics2song, song generation, long-form, foundation model, music generation

Summary

AI-Generated Summary

PDF642March 12, 2025