StemGen: 음악을 듣는 음악 생성 모델
StemGen: A music generation model that listens
December 14, 2023
저자: Julian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov, Ju-Chiang Wang, Matt Avent, Jitong Chen, Duc Le
cs.AI
초록
최근 딥러닝 기술을 활용한 음악 오디오의 종단간(end-to-end) 생성 연구가 폭발적으로 증가하고 있습니다. 그러나 대부분의 모델은 추상적인 조건 정보에 반응하여 완전히 믹싱된 음악을 생성하는 데 집중하고 있습니다. 본 연구에서는 음악적 맥락을 듣고 반응할 수 있는 음악 생성 모델을 제작하는 새로운 패러다임을 제시합니다. 비자기회귀(non-autoregressive) 트랜스포머 기반 모델 아키텍처를 사용하여 이러한 모델을 구축하는 방법을 설명하고, 여러 가지 새로운 아키텍처 및 샘플링 개선 사항을 제시합니다. 설명된 아키텍처를 오픈소스 데이터셋과 독점 데이터셋으로 학습시킵니다. 생성된 모델은 표준 품질 지표와 음악 정보 검색 기술을 기반으로 한 새로운 접근법을 사용하여 평가합니다. 결과 모델은 최첨단 텍스트 조건 모델의 오디오 품질에 도달할 뿐만 아니라, 주어진 맥락과 강력한 음악적 일관성을 보여줍니다.
English
End-to-end generation of musical audio using deep learning techniques has
seen an explosion of activity recently. However, most models concentrate on
generating fully mixed music in response to abstract conditioning information.
In this work, we present an alternative paradigm for producing music generation
models that can listen and respond to musical context. We describe how such a
model can be constructed using a non-autoregressive, transformer-based model
architecture and present a number of novel architectural and sampling
improvements. We train the described architecture on both an open-source and a
proprietary dataset. We evaluate the produced models using standard quality
metrics and a new approach based on music information retrieval descriptors.
The resulting model reaches the audio quality of state-of-the-art
text-conditioned models, as well as exhibiting strong musical coherence with
its context.