ChatPaper.aiChatPaper

프롬프트 기반 제어를 통한 다목적 노래 생성 프레임워크

Versatile Framework for Song Generation with Prompt-based Control

April 27, 2025
저자: Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao
cs.AI

초록

노래 생성은 다양한 프롬프트를 기반으로 제어 가능한 고품질의 노래를 생성하는 데 초점을 맞춥니다. 그러나 기존 방법들은 프롬프트 기반 제어와 적절한 정렬을 통해 보컬과 반주를 생성하는 데 어려움을 겪습니다. 또한, 다양한 작업을 지원하는 데에도 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 프롬프트 기반 제어와 정렬이 가능한 고품질의 노래를 합성하기 위한 다중 작업 노래 생성 프레임워크인 VersBand를 소개합니다. VersBand는 다음과 같은 주요 모델들로 구성됩니다: 1) VocalBand는 분리된 모델로, 플로우 매칭 방법을 활용하여 노래 스타일, 음높이, 멜-스펙트로그램을 생성함으로써 스타일 제어가 가능한 빠르고 고품질의 보컬 생성을 가능하게 합니다. 2) AccompBand는 플로우 기반 트랜스포머 모델로, Band-MOE를 통합하여 적합한 전문가를 선택하여 품질, 정렬, 제어를 향상시킵니다. 이 모델은 보컬과 정렬된 제어 가능한 고품질의 반주 생성을 가능하게 합니다. 3) 두 가지 생성 모델인 LyricBand(가사 생성)와 MelodyBand(멜로디 생성)는 다중 프롬프트를 기반으로 한 포괄적인 다중 작업 노래 생성 시스템에 기여합니다. 실험 결과는 VersBand가 객관적 및 주관적 지표를 사용하여 여러 노래 생성 작업에서 기준 모델들보다 더 나은 성능을 보임을 입증합니다. 오디오 샘플은 https://VersBand.github.io에서 확인할 수 있습니다.
English
Song generation focuses on producing controllable high-quality songs based on various prompts. However, existing methods struggle to generate vocals and accompaniments with prompt-based control and proper alignment. Additionally, they fall short in supporting various tasks. To address these challenges, we introduce VersBand, a multi-task song generation framework for synthesizing high-quality, aligned songs with prompt-based control. VersBand comprises these primary models: 1) VocalBand, a decoupled model, leverages the flow-matching method for generating singing styles, pitches, and mel-spectrograms, allowing fast, high-quality vocal generation with style control. 2) AccompBand, a flow-based transformer model, incorporates the Band-MOE, selecting suitable experts for enhanced quality, alignment, and control. This model allows for generating controllable, high-quality accompaniments aligned with vocals. 3) Two generation models, LyricBand for lyrics and MelodyBand for melodies, contribute to the comprehensive multi-task song generation system, allowing for extensive control based on multiple prompts. Experimental results demonstrate that VersBand performs better over baseline models across multiple song generation tasks using objective and subjective metrics. Audio samples are available at https://VersBand.github.io.

Summary

AI-Generated Summary

PDF72April 29, 2025