YuE: Het opschalen van open foundation-modellen voor het genereren van lange muziekvormen
YuE: Scaling Open Foundation Models for Long-Form Music Generation
March 11, 2025
Auteurs: Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo
cs.AI
Samenvatting
We pakken de taak van lange-muziekgeneratie aan—met name het uitdagende tekst-naar-liedprobleem—door YuE te introduceren, een familie van open foundation-modellen gebaseerd op de LLaMA2-architectuur. Specifiek schaalt YuE naar biljoenen tokens en genereert het tot vijf minuten muziek terwijl het tekstuele afstemming, coherente muzikale structuur en boeiende vocale melodieën met passende begeleiding behoudt. Dit wordt bereikt door (1) track-ontkoppelde volgende-tokenvoorspelling om dichte mengsignalen te overwinnen, (2) structurele progressieve conditionering voor lange-context tekstuele afstemming, en (3) een multitask, multifase pre-trainingsrecept om te convergeren en te generaliseren. Daarnaast herontwerpen we de in-context learning-techniek voor muziekgeneratie, waardoor veelzijdige stijloverdracht mogelijk wordt (bijvoorbeeld het omzetten van Japanse city pop naar een Engelse rap terwijl de originele begeleiding behouden blijft) en bidirectionele generatie. Door uitgebreide evaluatie tonen we aan dat YuE enkele propriëtaire systemen evenaart of zelfs overtreft in muzikaliteit en vocale behendigheid. Bovendien maakt fine-tuning van YuE extra controles en verbeterde ondersteuning voor minder gebruikte talen mogelijk. Verder laten we zien dat de geleerde representaties van YuE goed presteren op muziekbegripstaken, waarbij de resultaten van YuE de state-of-the-art methoden op de MARBLE-benchmark evenaren of overtreffen. Trefwoorden: tekst2lied, liedgeneratie, lange-vorm, foundation-model, muziekgeneratie.
English
We tackle the task of long-form music generation--particularly the
challenging lyrics-to-song problem--by introducing YuE, a family of
open foundation models based on the LLaMA2 architecture. Specifically, YuE
scales to trillions of tokens and generates up to five minutes of music while
maintaining lyrical alignment, coherent musical structure, and engaging vocal
melodies with appropriate accompaniment. It achieves this through (1)
track-decoupled next-token prediction to overcome dense mixture signals, (2)
structural progressive conditioning for long-context lyrical alignment, and (3)
a multitask, multiphase pre-training recipe to converge and generalize. In
addition, we redesign the in-context learning technique for music generation,
enabling versatile style transfer (e.g., converting Japanese city pop into an
English rap while preserving the original accompaniment) and bidirectional
generation. Through extensive evaluation, we demonstrate that YuE matches or
even surpasses some of the proprietary systems in musicality and vocal agility.
In addition, fine-tuning YuE enables additional controls and enhanced support
for tail languages. Furthermore, beyond generation, we show that YuE's learned
representations can perform well on music understanding tasks, where the
results of YuE match or exceed state-of-the-art methods on the MARBLE
benchmark. Keywords: lyrics2song, song generation, long-form, foundation model,
music generationSummary
AI-Generated Summary