DiffRhythm : Une génération de chansons complètes extrêmement rapide et incroyablement simple de bout en bout avec la diffusion latente

Résumé

Les récents progrès dans la génération musicale ont suscité un intérêt considérable, mais les approches existantes présentent des limitations critiques. Certains modèles génératifs actuels ne peuvent synthétiser que la piste vocale ou la piste d'accompagnement. Bien que certains modèles puissent générer des combinaisons vocales et instrumentales, ils reposent généralement sur des architectures en cascade multi-étapes méticuleusement conçues et des pipelines de données complexes, ce qui entrave leur évolutivité. De plus, la plupart des systèmes sont limités à la génération de segments musicaux courts plutôt que de chansons complètes. Par ailleurs, les méthodes largement utilisées basées sur des modèles de langage souffrent de vitesses d'inférence lentes. Pour relever ces défis, nous proposons DiffRhythm, le premier modèle de génération de chansons basé sur la diffusion latente capable de synthétiser des chansons complètes avec à la fois des voix et un accompagnement pour des durées allant jusqu'à 4 minutes 45 secondes en seulement dix secondes, tout en maintenant une musicalité et une intelligibilité élevées. Malgré ses capacités remarquables, DiffRhythm est conçu pour être simple et élégant : il élimine le besoin de préparation de données complexes, utilise une structure de modèle directe et ne nécessite que des paroles et une indication de style lors de l'inférence. De plus, sa structure non autorégressive garantit des vitesses d'inférence rapides. Cette simplicité assure l'évolutivité de DiffRhythm. Par ailleurs, nous publions le code complet d'entraînement ainsi que le modèle pré-entraîné sur des données à grande échelle pour promouvoir la reproductibilité et encourager des recherches ultérieures.

English

Recent advancements in music generation have garnered significant attention, yet existing approaches face critical limitations. Some current generative models can only synthesize either the vocal track or the accompaniment track. While some models can generate combined vocal and accompaniment, they typically rely on meticulously designed multi-stage cascading architectures and intricate data pipelines, hindering scalability. Additionally, most systems are restricted to generating short musical segments rather than full-length songs. Furthermore, widely used language model-based methods suffer from slow inference speeds. To address these challenges, we propose DiffRhythm, the first latent diffusion-based song generation model capable of synthesizing complete songs with both vocal and accompaniment for durations of up to 4m45s in only ten seconds, maintaining high musicality and intelligibility. Despite its remarkable capabilities, DiffRhythm is designed to be simple and elegant: it eliminates the need for complex data preparation, employs a straightforward model structure, and requires only lyrics and a style prompt during inference. Additionally, its non-autoregressive structure ensures fast inference speeds. This simplicity guarantees the scalability of DiffRhythm. Moreover, we release the complete training code along with the pre-trained model on large-scale data to promote reproducibility and further research.

DiffRhythm : Une génération de chansons complètes extrêmement rapide et incroyablement simple de bout en bout avec la diffusion latente

DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion

Résumé

Support