DiffRhythm: 驚異的な速度と驚くほどシンプルなエンドツーエンドのフルレングス楽曲生成を実現する潜在拡散モデル
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
March 3, 2025
著者: Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie
cs.AI
要旨
近年の音楽生成技術は大きな注目を集めているが、既存のアプローチには重大な限界が存在する。現在の生成モデルの一部は、ボーカルトラックまたは伴奏トラックのいずれかのみを合成することができる。ボーカルと伴奏を組み合わせて生成できるモデルもあるが、それらは通常、入念に設計された多段階のカスケードアーキテクチャや複雑なデータパイプラインに依存しており、スケーラビリティを妨げている。さらに、ほとんどのシステムは短い音楽セグメントの生成に限定されており、フルレングスの楽曲を生成することはできない。また、広く使用されている言語モデルベースの手法は、推論速度が遅いという課題を抱えている。これらの課題に対処するため、我々はDiffRhythmを提案する。これは、潜在拡散モデルに基づく初の楽曲生成モデルであり、最大4分45秒のボーカルと伴奏を備えた完全な楽曲をわずか10秒で合成することができ、高い音楽性と明瞭さを維持している。その驚異的な能力にもかかわらず、DiffRhythmはシンプルでエレガントに設計されている。複雑なデータ準備を不要とし、直感的なモデル構造を採用し、推論時には歌詞とスタイルプロンプトのみを必要とする。さらに、非自己回帰構造により高速な推論速度を実現している。このシンプルさが、DiffRhythmのスケーラビリティを保証している。加えて、再現性とさらなる研究を促進するため、大規模データに基づく事前学習済みモデルと完全なトレーニングコードを公開する。
English
Recent advancements in music generation have garnered significant attention,
yet existing approaches face critical limitations. Some current generative
models can only synthesize either the vocal track or the accompaniment track.
While some models can generate combined vocal and accompaniment, they typically
rely on meticulously designed multi-stage cascading architectures and intricate
data pipelines, hindering scalability. Additionally, most systems are
restricted to generating short musical segments rather than full-length songs.
Furthermore, widely used language model-based methods suffer from slow
inference speeds. To address these challenges, we propose DiffRhythm, the first
latent diffusion-based song generation model capable of synthesizing complete
songs with both vocal and accompaniment for durations of up to 4m45s in only
ten seconds, maintaining high musicality and intelligibility. Despite its
remarkable capabilities, DiffRhythm is designed to be simple and elegant: it
eliminates the need for complex data preparation, employs a straightforward
model structure, and requires only lyrics and a style prompt during inference.
Additionally, its non-autoregressive structure ensures fast inference speeds.
This simplicity guarantees the scalability of DiffRhythm. Moreover, we release
the complete training code along with the pre-trained model on large-scale data
to promote reproducibility and further research.Summary
AI-Generated Summary