ChatPaper.aiChatPaper

YuE: 장편 음악 생성을 위한 오픈 파운데이션 모델 스케일링

YuE: Scaling Open Foundation Models for Long-Form Music Generation

March 11, 2025
저자: Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo
cs.AI

초록

우리는 LLaMA2 아키텍처를 기반으로 한 오픈 파운데이션 모델인 YuE를 도입하여, 특히 도전적인 가사-노래 변환 문제를 포함한 장편 음악 생성 작업에 접근합니다. 구체적으로, YuE는 수조 개의 토큰을 처리할 수 있으며 최대 5분 길이의 음악을 생성하면서도 가사 정렬, 일관된 음악 구조, 적절한 반주와 함께 매력적인 보컬 멜로디를 유지합니다. 이를 위해 YuE는 (1) 밀집된 혼합 신호를 극복하기 위한 트랙 분리형 다음 토큰 예측, (2) 장문 가사 정렬을 위한 구조적 점진적 조건화, (3) 수렴 및 일반화를 위한 다중 작업, 다중 단계 사전 학습 레시피를 활용합니다. 또한, 음악 생성을 위한 인-컨텍스트 학습 기술을 재설계하여 다양한 스타일 전이(예: 일본 시티 팝을 영어 랩으로 변환하면서 원래 반주를 유지)와 양방향 생성을 가능하게 합니다. 광범위한 평가를 통해 YuE가 음악성과 보컬 민첩성 측면에서 일부 독점 시스템을 능가하거나 동등한 성능을 보임을 입증합니다. 또한, YuE를 미세 조정함으로써 추가적인 제어 기능과 소수 언어에 대한 강화된 지원이 가능합니다. 더 나아가, 생성 작업을 넘어 YuE가 학습한 표현이 음악 이해 작업에서도 우수한 성능을 발휘하며, MARBLE 벤치마크에서 최신 기술을 능가하거나 동등한 결과를 보임을 확인합니다. 키워드: 가사-노래 변환, 노래 생성, 장편, 파운데이션 모델, 음악 생성
English
We tackle the task of long-form music generation--particularly the challenging lyrics-to-song problem--by introducing YuE, a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. It achieves this through (1) track-decoupled next-token prediction to overcome dense mixture signals, (2) structural progressive conditioning for long-context lyrical alignment, and (3) a multitask, multiphase pre-training recipe to converge and generalize. In addition, we redesign the in-context learning technique for music generation, enabling versatile style transfer (e.g., converting Japanese city pop into an English rap while preserving the original accompaniment) and bidirectional generation. Through extensive evaluation, we demonstrate that YuE matches or even surpasses some of the proprietary systems in musicality and vocal agility. In addition, fine-tuning YuE enables additional controls and enhanced support for tail languages. Furthermore, beyond generation, we show that YuE's learned representations can perform well on music understanding tasks, where the results of YuE match or exceed state-of-the-art methods on the MARBLE benchmark. Keywords: lyrics2song, song generation, long-form, foundation model, music generation

Summary

AI-Generated Summary

PDF642March 12, 2025