YuE: Масштабирование открытых базовых моделей для генерации длинных музыкальных композиций

Аннотация

Мы решаем задачу генерации длинных музыкальных композиций, в частности сложную проблему преобразования текста в песню, представляя YuE — семейство открытых базовых моделей, основанных на архитектуре LLaMA2. В частности, YuE масштабируется до триллионов токенов и генерирует музыку продолжительностью до пяти минут, сохраняя соответствие тексту, связную музыкальную структуру и увлекательные вокальные мелодии с подходящим аккомпанементом. Это достигается за счет (1) разделенного по трекам предсказания следующего токена для преодоления сложных смешанных сигналов, (2) структурного прогрессивного кондиционирования для длительного контекстного соответствия тексту и (3) многофазного многозадачного предобучения для сходимости и обобщения. Кроме того, мы переработали технику обучения в контексте для генерации музыки, что позволяет осуществлять универсальный перенос стиля (например, преобразование японского сити-попа в английский рэп с сохранением оригинального аккомпанемента) и двунаправленную генерацию. В ходе обширной оценки мы демонстрируем, что YuE соответствует или даже превосходит некоторые проприетарные системы по музыкальности и вокальной гибкости. Кроме того, дообучение YuE позволяет реализовать дополнительные элементы управления и улучшенную поддержку редких языков. Более того, помимо генерации, мы показываем, что изученные представления YuE хорошо справляются с задачами понимания музыки, где результаты YuE соответствуют или превосходят современные методы на бенчмарке MARBLE. Ключевые слова: текст-в-песню, генерация песен, длинные формы, базовая модель, генерация музыки.

English

We tackle the task of long-form music generation--particularly the challenging lyrics-to-song problem--by introducing YuE, a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. It achieves this through (1) track-decoupled next-token prediction to overcome dense mixture signals, (2) structural progressive conditioning for long-context lyrical alignment, and (3) a multitask, multiphase pre-training recipe to converge and generalize. In addition, we redesign the in-context learning technique for music generation, enabling versatile style transfer (e.g., converting Japanese city pop into an English rap while preserving the original accompaniment) and bidirectional generation. Through extensive evaluation, we demonstrate that YuE matches or even surpasses some of the proprietary systems in musicality and vocal agility. In addition, fine-tuning YuE enables additional controls and enhanced support for tail languages. Furthermore, beyond generation, we show that YuE's learned representations can perform well on music understanding tasks, where the results of YuE match or exceed state-of-the-art methods on the MARBLE benchmark. Keywords: lyrics2song, song generation, long-form, foundation model, music generation