DiffRhythm: Generación de canciones completas de extremo a extremo increíblemente rápida y sorprendentemente simple con difusión latente
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
March 3, 2025
Autores: Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie
cs.AI
Resumen
Los recientes avances en la generación de música han captado una atención significativa, aunque los enfoques existentes enfrentan limitaciones críticas. Algunos modelos generativos actuales solo pueden sintetizar la pista vocal o la pista de acompañamiento. Si bien algunos modelos pueden generar voces y acompañamientos combinados, generalmente dependen de arquitecturas en cascada de múltiples etapas meticulosamente diseñadas y pipelines de datos intrincados, lo que dificulta su escalabilidad. Además, la mayoría de los sistemas están restringidos a generar segmentos musicales cortos en lugar de canciones completas. Asimismo, los métodos basados en modelos de lenguaje ampliamente utilizados sufren de velocidades de inferencia lentas. Para abordar estos desafíos, proponemos DiffRhythm, el primer modelo de generación de canciones basado en difusión latente capaz de sintetizar canciones completas con voces y acompañamientos de hasta 4m45s en solo diez segundos, manteniendo una alta musicalidad e inteligibilidad. A pesar de sus capacidades notables, DiffRhythm está diseñado para ser simple y elegante: elimina la necesidad de una preparación de datos compleja, emplea una estructura de modelo directa y solo requiere letras y un indicador de estilo durante la inferencia. Además, su estructura no autoregresiva garantiza velocidades de inferencia rápidas. Esta simplicidad asegura la escalabilidad de DiffRhythm. Además, publicamos el código de entrenamiento completo junto con el modelo preentrenado en datos a gran escala para promover la reproducibilidad y fomentar investigaciones futuras.
English
Recent advancements in music generation have garnered significant attention,
yet existing approaches face critical limitations. Some current generative
models can only synthesize either the vocal track or the accompaniment track.
While some models can generate combined vocal and accompaniment, they typically
rely on meticulously designed multi-stage cascading architectures and intricate
data pipelines, hindering scalability. Additionally, most systems are
restricted to generating short musical segments rather than full-length songs.
Furthermore, widely used language model-based methods suffer from slow
inference speeds. To address these challenges, we propose DiffRhythm, the first
latent diffusion-based song generation model capable of synthesizing complete
songs with both vocal and accompaniment for durations of up to 4m45s in only
ten seconds, maintaining high musicality and intelligibility. Despite its
remarkable capabilities, DiffRhythm is designed to be simple and elegant: it
eliminates the need for complex data preparation, employs a straightforward
model structure, and requires only lyrics and a style prompt during inference.
Additionally, its non-autoregressive structure ensures fast inference speeds.
This simplicity guarantees the scalability of DiffRhythm. Moreover, we release
the complete training code along with the pre-trained model on large-scale data
to promote reproducibility and further research.Summary
AI-Generated Summary