DiffRhythm: 잠재적 확산 모델을 활용한 초고속 및 놀라울 정도로 간단한 종단간 풀렝쓰 음악 생성
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
March 3, 2025
저자: Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie
cs.AI
초록
최근 음악 생성 분야의 발전은 상당한 주목을 받고 있지만, 기존 접근 방식들은 중요한 한계에 직면해 있습니다. 현재 일부 생성 모델은 보컬 트랙 또는 반주 트랙 중 하나만을 합성할 수 있습니다. 보컬과 반주를 함께 생성할 수 있는 모델들도 있지만, 이들은 일반적으로 세심하게 설계된 다단계 캐스케이드 아키텍처와 복잡한 데이터 파이프라인에 의존하여 확장성을 저해합니다. 또한, 대부분의 시스템은 전체 길이의 곡이 아닌 짧은 음악 세그먼트만을 생성하는 데 제한됩니다. 더욱이, 널리 사용되는 언어 모델 기반 방법들은 느린 추론 속도로 인해 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 최대 4분 45초 길이의 완전한 곡을 보컬과 반주와 함께 단 10초 만에 생성할 수 있는 최초의 잠재 확산 기반 음악 생성 모델인 DiffRhythm을 제안합니다. 이 모델은 높은 음악성과 명료성을 유지하면서도, 복잡한 데이터 준비 과정을 제거하고 간결한 모델 구조를 채택하며, 추론 시 가사와 스타일 프롬프트만을 요구하는 단순하고 우아한 설계를 갖추고 있습니다. 또한, 비자기회귀 구조를 통해 빠른 추론 속도를 보장합니다. 이러한 단순성은 DiffRhythm의 확장성을 보장합니다. 더 나아가, 재현성과 추가 연구를 촉진하기 위해 대규모 데이터로 사전 학습된 모델과 함께 완전한 학습 코드를 공개합니다.
English
Recent advancements in music generation have garnered significant attention,
yet existing approaches face critical limitations. Some current generative
models can only synthesize either the vocal track or the accompaniment track.
While some models can generate combined vocal and accompaniment, they typically
rely on meticulously designed multi-stage cascading architectures and intricate
data pipelines, hindering scalability. Additionally, most systems are
restricted to generating short musical segments rather than full-length songs.
Furthermore, widely used language model-based methods suffer from slow
inference speeds. To address these challenges, we propose DiffRhythm, the first
latent diffusion-based song generation model capable of synthesizing complete
songs with both vocal and accompaniment for durations of up to 4m45s in only
ten seconds, maintaining high musicality and intelligibility. Despite its
remarkable capabilities, DiffRhythm is designed to be simple and elegant: it
eliminates the need for complex data preparation, employs a straightforward
model structure, and requires only lyrics and a style prompt during inference.
Additionally, its non-autoregressive structure ensures fast inference speeds.
This simplicity guarantees the scalability of DiffRhythm. Moreover, we release
the complete training code along with the pre-trained model on large-scale data
to promote reproducibility and further research.Summary
AI-Generated Summary