DiffRhythm : Une génération de chansons complètes extrêmement rapide et incroyablement simple de bout en bout avec la diffusion latente
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
March 3, 2025
Auteurs: Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie
cs.AI
Résumé
Les récents progrès dans la génération musicale ont suscité un intérêt considérable, mais les approches existantes présentent des limitations critiques. Certains modèles génératifs actuels ne peuvent synthétiser que la piste vocale ou la piste d'accompagnement. Bien que certains modèles puissent générer des combinaisons vocales et instrumentales, ils reposent généralement sur des architectures en cascade multi-étapes méticuleusement conçues et des pipelines de données complexes, ce qui entrave leur évolutivité. De plus, la plupart des systèmes sont limités à la génération de segments musicaux courts plutôt que de chansons complètes. Par ailleurs, les méthodes largement utilisées basées sur des modèles de langage souffrent de vitesses d'inférence lentes. Pour relever ces défis, nous proposons DiffRhythm, le premier modèle de génération de chansons basé sur la diffusion latente capable de synthétiser des chansons complètes avec à la fois des voix et un accompagnement pour des durées allant jusqu'à 4 minutes 45 secondes en seulement dix secondes, tout en maintenant une musicalité et une intelligibilité élevées. Malgré ses capacités remarquables, DiffRhythm est conçu pour être simple et élégant : il élimine le besoin de préparation de données complexes, utilise une structure de modèle directe et ne nécessite que des paroles et une indication de style lors de l'inférence. De plus, sa structure non autorégressive garantit des vitesses d'inférence rapides. Cette simplicité assure l'évolutivité de DiffRhythm. Par ailleurs, nous publions le code complet d'entraînement ainsi que le modèle pré-entraîné sur des données à grande échelle pour promouvoir la reproductibilité et encourager des recherches ultérieures.
English
Recent advancements in music generation have garnered significant attention,
yet existing approaches face critical limitations. Some current generative
models can only synthesize either the vocal track or the accompaniment track.
While some models can generate combined vocal and accompaniment, they typically
rely on meticulously designed multi-stage cascading architectures and intricate
data pipelines, hindering scalability. Additionally, most systems are
restricted to generating short musical segments rather than full-length songs.
Furthermore, widely used language model-based methods suffer from slow
inference speeds. To address these challenges, we propose DiffRhythm, the first
latent diffusion-based song generation model capable of synthesizing complete
songs with both vocal and accompaniment for durations of up to 4m45s in only
ten seconds, maintaining high musicality and intelligibility. Despite its
remarkable capabilities, DiffRhythm is designed to be simple and elegant: it
eliminates the need for complex data preparation, employs a straightforward
model structure, and requires only lyrics and a style prompt during inference.
Additionally, its non-autoregressive structure ensures fast inference speeds.
This simplicity guarantees the scalability of DiffRhythm. Moreover, we release
the complete training code along with the pre-trained model on large-scale data
to promote reproducibility and further research.Summary
AI-Generated Summary