YuE : Mise à l'échelle de modèles de fondation ouverts pour la génération de musique de longue durée

papers.abstract

Nous abordons la tâche de génération musicale de longue durée, en particulier le problème complexe de la transformation de paroles en chanson, en introduisant YuE, une famille de modèles de fondation ouverts basés sur l'architecture LLaMA2. Plus précisément, YuE s'adapte à des milliers de milliards de tokens et génère jusqu'à cinq minutes de musique tout en maintenant un alignement lyrique, une structure musicale cohérente et des mélodies vocales engageantes avec un accompagnement approprié. Cela est réalisé grâce à (1) une prédiction de token suivant découplée par piste pour surmonter les signaux de mélange denses, (2) un conditionnement progressif structurel pour un alignement lyrique à long contexte, et (3) une recette de pré-entraînement multitâche et multiphase pour converger et généraliser. De plus, nous repensons la technique d'apprentissage en contexte pour la génération musicale, permettant un transfert de style polyvalent (par exemple, convertir une pop urbaine japonaise en un rap anglais tout en conservant l'accompagnement original) et une génération bidirectionnelle. Grâce à une évaluation approfondie, nous démontrons que YuE égale ou dépasse même certains systèmes propriétaires en termes de musicalité et d'agilité vocale. Par ailleurs, le fine-tuning de YuE permet des contrôles supplémentaires et un meilleur support pour les langues minoritaires. En outre, au-delà de la génération, nous montrons que les représentations apprises par YuE performent bien sur des tâches de compréhension musicale, où les résultats de YuE égalent ou surpassent les méthodes de pointe sur le benchmark MARBLE. Mots-clés : paroles2chanson, génération de chansons, longue durée, modèle de fondation, génération musicale.

English

We tackle the task of long-form music generation--particularly the challenging lyrics-to-song problem--by introducing YuE, a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. It achieves this through (1) track-decoupled next-token prediction to overcome dense mixture signals, (2) structural progressive conditioning for long-context lyrical alignment, and (3) a multitask, multiphase pre-training recipe to converge and generalize. In addition, we redesign the in-context learning technique for music generation, enabling versatile style transfer (e.g., converting Japanese city pop into an English rap while preserving the original accompaniment) and bidirectional generation. Through extensive evaluation, we demonstrate that YuE matches or even surpasses some of the proprietary systems in musicality and vocal agility. In addition, fine-tuning YuE enables additional controls and enhanced support for tail languages. Furthermore, beyond generation, we show that YuE's learned representations can perform well on music understanding tasks, where the results of YuE match or exceed state-of-the-art methods on the MARBLE benchmark. Keywords: lyrics2song, song generation, long-form, foundation model, music generation

YuE : Mise à l'échelle de modèles de fondation ouverts pour la génération de musique de longue durée

YuE: Scaling Open Foundation Models for Long-Form Music Generation

papers.abstract

Support