DiffRhythm: Generazione di canzoni complete end-to-end straordinariamente veloce e incredibilmente semplice con diffusione latente
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
March 3, 2025
Autori: Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie
cs.AI
Abstract
I recenti progressi nella generazione musicale hanno attirato una significativa attenzione, ma gli approcci esistenti presentano limitazioni critiche. Alcuni modelli generativi attuali possono sintetizzare solo la traccia vocale o quella di accompagnamento. Sebbene alcuni modelli siano in grado di generare combinazioni di voce e accompagnamento, si basano tipicamente su architetture a cascata multi-stadio meticolosamente progettate e pipeline di dati complesse, ostacolando la scalabilità. Inoltre, la maggior parte dei sistemi è limitata alla generazione di brevi segmenti musicali piuttosto che di canzoni complete. In aggiunta, i metodi basati su modelli linguistici ampiamente utilizzati soffrono di velocità di inferenza lenta. Per affrontare queste sfide, proponiamo DiffRhythm, il primo modello di generazione di canzoni basato su diffusione latente in grado di sintetizzare canzoni complete con sia voce che accompagnamento per durate fino a 4m45s in soli dieci secondi, mantenendo un'elevata musicalità e intelligibilità. Nonostante le sue notevoli capacità, DiffRhythm è progettato per essere semplice ed elegante: elimina la necessità di una preparazione complessa dei dati, utilizza una struttura modellistica diretta e richiede solo testi e un prompt di stile durante l'inferenza. Inoltre, la sua struttura non autoregressiva garantisce velocità di inferenza rapide. Questa semplicità assicura la scalabilità di DiffRhythm. Inoltre, rilasciamo il codice completo di addestramento insieme al modello pre-addestrato su dati su larga scala per promuovere la riproducibilità e ulteriori ricerche.
English
Recent advancements in music generation have garnered significant attention,
yet existing approaches face critical limitations. Some current generative
models can only synthesize either the vocal track or the accompaniment track.
While some models can generate combined vocal and accompaniment, they typically
rely on meticulously designed multi-stage cascading architectures and intricate
data pipelines, hindering scalability. Additionally, most systems are
restricted to generating short musical segments rather than full-length songs.
Furthermore, widely used language model-based methods suffer from slow
inference speeds. To address these challenges, we propose DiffRhythm, the first
latent diffusion-based song generation model capable of synthesizing complete
songs with both vocal and accompaniment for durations of up to 4m45s in only
ten seconds, maintaining high musicality and intelligibility. Despite its
remarkable capabilities, DiffRhythm is designed to be simple and elegant: it
eliminates the need for complex data preparation, employs a straightforward
model structure, and requires only lyrics and a style prompt during inference.
Additionally, its non-autoregressive structure ensures fast inference speeds.
This simplicity guarantees the scalability of DiffRhythm. Moreover, we release
the complete training code along with the pre-trained model on large-scale data
to promote reproducibility and further research.Summary
AI-Generated Summary