ChatPaper.aiChatPaper

DiffRhythm: Geração de Músicas Completas Extremamente Rápida e Surpreendentemente Simples com Difusão Latente de Ponta a Ponta

DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion

March 3, 2025
Autores: Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie
cs.AI

Resumo

Os recentes avanços na geração de música têm atraído atenção significativa, mas as abordagens existentes enfrentam limitações críticas. Alguns modelos generativos atuais só conseguem sintetizar a faixa vocal ou a faixa de acompanhamento. Embora alguns modelos possam gerar vocal e acompanhamento combinados, eles geralmente dependem de arquiteturas em cascata de múltiplos estágios meticulosamente projetadas e pipelines de dados intrincados, prejudicando a escalabilidade. Além disso, a maioria dos sistemas está restrita à geração de segmentos musicais curtos em vez de músicas completas. Adicionalmente, os métodos amplamente utilizados baseados em modelos de linguagem sofrem com velocidades de inferência lentas. Para enfrentar esses desafios, propomos o DiffRhythm, o primeiro modelo de geração de músicas baseado em difusão latente capaz de sintetizar músicas completas com vocal e acompanhamento por durações de até 4m45s em apenas dez segundos, mantendo alta musicalidade e inteligibilidade. Apesar de suas capacidades notáveis, o DiffRhythm foi projetado para ser simples e elegante: ele elimina a necessidade de preparação complexa de dados, emprega uma estrutura de modelo direta e requer apenas letras e um prompt de estilo durante a inferência. Além disso, sua estrutura não autorregressiva garante velocidades de inferência rápidas. Essa simplicidade assegura a escalabilidade do DiffRhythm. Adicionalmente, disponibilizamos o código completo de treinamento junto com o modelo pré-treinado em dados em larga escala para promover a reprodutibilidade e pesquisas futuras.
English
Recent advancements in music generation have garnered significant attention, yet existing approaches face critical limitations. Some current generative models can only synthesize either the vocal track or the accompaniment track. While some models can generate combined vocal and accompaniment, they typically rely on meticulously designed multi-stage cascading architectures and intricate data pipelines, hindering scalability. Additionally, most systems are restricted to generating short musical segments rather than full-length songs. Furthermore, widely used language model-based methods suffer from slow inference speeds. To address these challenges, we propose DiffRhythm, the first latent diffusion-based song generation model capable of synthesizing complete songs with both vocal and accompaniment for durations of up to 4m45s in only ten seconds, maintaining high musicality and intelligibility. Despite its remarkable capabilities, DiffRhythm is designed to be simple and elegant: it eliminates the need for complex data preparation, employs a straightforward model structure, and requires only lyrics and a style prompt during inference. Additionally, its non-autoregressive structure ensures fast inference speeds. This simplicity guarantees the scalability of DiffRhythm. Moreover, we release the complete training code along with the pre-trained model on large-scale data to promote reproducibility and further research.

Summary

AI-Generated Summary

PDF272March 4, 2025