DiffRhythm: Razendsnel en verbazingwekkend eenvoudig end-to-end genereren van volledige liedjes met latente diffusie
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
March 3, 2025
Auteurs: Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie
cs.AI
Samenvatting
Recente vooruitgang in muziekgeneratie heeft aanzienlijke aandacht gekregen,
maar bestaande benaderingen kampen met kritische beperkingen. Sommige huidige
generatieve modellen kunnen alleen de vocale track of de begeleidingstrack
synthetiseren. Hoewel sommige modellen gecombineerde vocale en begeleidingstracks
kunnen genereren, vertrouwen ze doorgaans op zorgvuldig ontworpen meerfasige
cascade-architecturen en ingewikkelde datapipelines, wat de schaalbaarheid
beperkt. Bovendien zijn de meeste systemen beperkt tot het genereren van korte
muziekfragmenten in plaats van volledige nummers. Verder lijden veelgebruikte
methoden op basis van taalmodellen aan trage inferentiesnelheden. Om deze
uitdagingen aan te pakken, stellen we DiffRhythm voor, het eerste latent
diffusiegebaseerde nummergeneratiemodel dat complete nummers kan synthetiseren
met zowel vocale als begeleidingstracks voor een duur van maximaal 4m45s in slechts
tien seconden, waarbij hoge muzikaliteit en verstaanbaarheid behouden blijven.
Ondanks zijn opmerkelijke mogelijkheden is DiffRhythm ontworpen om eenvoudig en
elegant te zijn: het elimineert de noodzaak voor complexe datavoorbereiding,
gebruikt een eenvoudige modelstructuur en vereist alleen songteksten en een
stijlprompt tijdens inferentie. Daarnaast zorgt zijn niet-autoregressieve structuur
voor snelle inferentiesnelheden. Deze eenvoud garandeert de schaalbaarheid van
DiffRhythm. Bovendien publiceren we de volledige trainingscode samen met het
voorgetrainde model op grootschalige data om reproduceerbaarheid en verder
onderzoek te bevorderen.
English
Recent advancements in music generation have garnered significant attention,
yet existing approaches face critical limitations. Some current generative
models can only synthesize either the vocal track or the accompaniment track.
While some models can generate combined vocal and accompaniment, they typically
rely on meticulously designed multi-stage cascading architectures and intricate
data pipelines, hindering scalability. Additionally, most systems are
restricted to generating short musical segments rather than full-length songs.
Furthermore, widely used language model-based methods suffer from slow
inference speeds. To address these challenges, we propose DiffRhythm, the first
latent diffusion-based song generation model capable of synthesizing complete
songs with both vocal and accompaniment for durations of up to 4m45s in only
ten seconds, maintaining high musicality and intelligibility. Despite its
remarkable capabilities, DiffRhythm is designed to be simple and elegant: it
eliminates the need for complex data preparation, employs a straightforward
model structure, and requires only lyrics and a style prompt during inference.
Additionally, its non-autoregressive structure ensures fast inference speeds.
This simplicity guarantees the scalability of DiffRhythm. Moreover, we release
the complete training code along with the pre-trained model on large-scale data
to promote reproducibility and further research.Summary
AI-Generated Summary