DiffRhythm: Blitzschnelle und erstaunlich einfache End-to-End-Generierung von vollständigen Songs mit latenter Diffusion
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
March 3, 2025
Autoren: Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Musikgenerierung haben erhebliche Aufmerksamkeit erregt, doch bestehende Ansätze stoßen auf kritische Einschränkungen. Einige aktuelle generative Modelle können entweder nur den Gesang oder die Begleitung synthetisieren. Während einige Modelle kombinierte Gesangs- und Begleitungsspuren erzeugen können, basieren sie typischerweise auf sorgfältig entworfenen mehrstufigen Kaskadenarchitekturen und komplexen Datenpipelines, was die Skalierbarkeit behindert. Darüber hinaus sind die meisten Systeme darauf beschränkt, kurze musikalische Segmente anstelle von vollständigen Songs zu generieren. Zudem leiden weit verbreitete, auf Sprachmodellen basierende Methoden unter langsamen Inferenzgeschwindigkeiten. Um diese Herausforderungen zu bewältigen, schlagen wir DiffRhythm vor, das erste latente diffusionsbasierte Songgenerierungsmodell, das in der Lage ist, vollständige Songs mit Gesang und Begleitung für eine Dauer von bis zu 4m45s in nur zehn Sekunden zu synthetisieren, wobei eine hohe Musikalität und Verständlichkeit erhalten bleibt. Trotz seiner bemerkenswerten Fähigkeiten ist DiffRhythm einfach und elegant konzipiert: Es eliminiert die Notwendigkeit komplexer Datenvorbereitung, verwendet eine unkomplizierte Modellstruktur und benötigt während der Inferenz lediglich Songtexte und einen Stil-Prompt. Zusätzlich gewährleistet seine nicht-autoregressive Struktur schnelle Inferenzgeschwindigkeiten. Diese Einfachheit garantiert die Skalierbarkeit von DiffRhythm. Darüber hinaus veröffentlichen wir den vollständigen Trainingscode zusammen mit dem vortrainierten Modell auf groß angelegten Daten, um Reproduzierbarkeit und weitere Forschung zu fördern.
English
Recent advancements in music generation have garnered significant attention,
yet existing approaches face critical limitations. Some current generative
models can only synthesize either the vocal track or the accompaniment track.
While some models can generate combined vocal and accompaniment, they typically
rely on meticulously designed multi-stage cascading architectures and intricate
data pipelines, hindering scalability. Additionally, most systems are
restricted to generating short musical segments rather than full-length songs.
Furthermore, widely used language model-based methods suffer from slow
inference speeds. To address these challenges, we propose DiffRhythm, the first
latent diffusion-based song generation model capable of synthesizing complete
songs with both vocal and accompaniment for durations of up to 4m45s in only
ten seconds, maintaining high musicality and intelligibility. Despite its
remarkable capabilities, DiffRhythm is designed to be simple and elegant: it
eliminates the need for complex data preparation, employs a straightforward
model structure, and requires only lyrics and a style prompt during inference.
Additionally, its non-autoregressive structure ensures fast inference speeds.
This simplicity guarantees the scalability of DiffRhythm. Moreover, we release
the complete training code along with the pre-trained model on large-scale data
to promote reproducibility and further research.Summary
AI-Generated Summary