YuE: Scalabilità di Modelli Fondamentali Aperti per la Generazione di Musica in Formato Esteso

Abstract

Affrontiamo il compito della generazione musicale di lunga durata—in particolare il complesso problema della trasformazione di testi in canzoni—introducendo YuE, una famiglia di modelli fondazionali aperti basati sull'architettura LLaMA2. Nello specifico, YuE scala fino a trilioni di token e genera musica fino a cinque minuti, mantenendo l'allineamento lirico, una struttura musicale coerente e melodie vocali coinvolgenti con un accompagnamento appropriato. Questo risultato è ottenuto attraverso (1) la previsione del token successivo con tracce disaccoppiate per superare i segnali di miscela densa, (2) il condizionamento progressivo strutturale per l'allineamento lirico in contesti lunghi, e (3) una ricetta di pre-addestramento multitask e multifase per convergere e generalizzare. Inoltre, ridisegniamo la tecnica di apprendimento in contesto per la generazione musicale, abilitando il trasferimento stilistico versatile (ad esempio, convertire il city pop giapponese in un rap inglese preservando l'accompagnamento originale) e la generazione bidirezionale. Attraverso una valutazione estensiva, dimostriamo che YuE eguaglia o addirittura supera alcuni sistemi proprietari in musicalità e agilità vocale. Inoltre, il fine-tuning di YuE consente controlli aggiuntivi e un supporto migliorato per le lingue minoritarie. Oltre alla generazione, mostriamo che le rappresentazioni apprese da YuE possono performare bene in compiti di comprensione musicale, dove i risultati di YuE eguagliano o superano i metodi all'avanguardia sul benchmark MARBLE. Parole chiave: lyrics2song, generazione di canzoni, lunga durata, modello fondazionale, generazione musicale.

English

We tackle the task of long-form music generation--particularly the challenging lyrics-to-song problem--by introducing YuE, a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. It achieves this through (1) track-decoupled next-token prediction to overcome dense mixture signals, (2) structural progressive conditioning for long-context lyrical alignment, and (3) a multitask, multiphase pre-training recipe to converge and generalize. In addition, we redesign the in-context learning technique for music generation, enabling versatile style transfer (e.g., converting Japanese city pop into an English rap while preserving the original accompaniment) and bidirectional generation. Through extensive evaluation, we demonstrate that YuE matches or even surpasses some of the proprietary systems in musicality and vocal agility. In addition, fine-tuning YuE enables additional controls and enhanced support for tail languages. Furthermore, beyond generation, we show that YuE's learned representations can perform well on music understanding tasks, where the results of YuE match or exceed state-of-the-art methods on the MARBLE benchmark. Keywords: lyrics2song, song generation, long-form, foundation model, music generation

YuE: Scalabilità di Modelli Fondamentali Aperti per la Generazione di Musica in Formato Esteso

YuE: Scaling Open Foundation Models for Long-Form Music Generation

Abstract

Support