YuE : Mise à l'échelle de modèles de fondation ouverts pour la génération de musique de longue durée
YuE: Scaling Open Foundation Models for Long-Form Music Generation
March 11, 2025
Auteurs: Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo
cs.AI
Résumé
Nous abordons la tâche de génération musicale de longue durée, en particulier le problème complexe de la transformation de paroles en chanson, en introduisant YuE, une famille de modèles de fondation ouverts basés sur l'architecture LLaMA2. Plus précisément, YuE s'adapte à des milliers de milliards de tokens et génère jusqu'à cinq minutes de musique tout en maintenant un alignement lyrique, une structure musicale cohérente et des mélodies vocales engageantes avec un accompagnement approprié. Cela est réalisé grâce à (1) une prédiction de token suivant découplée par piste pour surmonter les signaux de mélange denses, (2) un conditionnement progressif structurel pour un alignement lyrique à long contexte, et (3) une recette de pré-entraînement multitâche et multiphase pour converger et généraliser. De plus, nous repensons la technique d'apprentissage en contexte pour la génération musicale, permettant un transfert de style polyvalent (par exemple, convertir une pop urbaine japonaise en un rap anglais tout en conservant l'accompagnement original) et une génération bidirectionnelle. Grâce à une évaluation approfondie, nous démontrons que YuE égale ou dépasse même certains systèmes propriétaires en termes de musicalité et d'agilité vocale. Par ailleurs, le fine-tuning de YuE permet des contrôles supplémentaires et un meilleur support pour les langues minoritaires. En outre, au-delà de la génération, nous montrons que les représentations apprises par YuE performent bien sur des tâches de compréhension musicale, où les résultats de YuE égalent ou surpassent les méthodes de pointe sur le benchmark MARBLE. Mots-clés : paroles2chanson, génération de chansons, longue durée, modèle de fondation, génération musicale.
English
We tackle the task of long-form music generation--particularly the
challenging lyrics-to-song problem--by introducing YuE, a family of
open foundation models based on the LLaMA2 architecture. Specifically, YuE
scales to trillions of tokens and generates up to five minutes of music while
maintaining lyrical alignment, coherent musical structure, and engaging vocal
melodies with appropriate accompaniment. It achieves this through (1)
track-decoupled next-token prediction to overcome dense mixture signals, (2)
structural progressive conditioning for long-context lyrical alignment, and (3)
a multitask, multiphase pre-training recipe to converge and generalize. In
addition, we redesign the in-context learning technique for music generation,
enabling versatile style transfer (e.g., converting Japanese city pop into an
English rap while preserving the original accompaniment) and bidirectional
generation. Through extensive evaluation, we demonstrate that YuE matches or
even surpasses some of the proprietary systems in musicality and vocal agility.
In addition, fine-tuning YuE enables additional controls and enhanced support
for tail languages. Furthermore, beyond generation, we show that YuE's learned
representations can perform well on music understanding tasks, where the
results of YuE match or exceed state-of-the-art methods on the MARBLE
benchmark. Keywords: lyrics2song, song generation, long-form, foundation model,
music generation