ChatPaper.aiChatPaper

잠재 확산 모델을 활용한 장편 음악 생성

Long-form music generation with latent diffusion

April 16, 2024
저자: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
cs.AI

초록

오디오 기반 음악 생성 모델은 최근 큰 발전을 이루었지만, 여전히 일관된 음악적 구조를 가진 전체 길이의 음악 트랙을 생성하는 데는 성공하지 못했습니다. 우리는 긴 시간적 맥락을 학습한 생성 모델을 통해 최대 4분 45초의 장편 음악을 생성할 수 있음을 보여줍니다. 우리의 모델은 고도로 다운샘플링된 연속 잠재 표현(21.5Hz의 잠재율)에서 작동하는 디퓨전-트랜스포머로 구성됩니다. 이 모델은 오디오 품질과 프롬프트 정렬에 대한 메트릭에서 최첨단 생성 결과를 얻으며, 주관적 테스트를 통해 일관된 구조를 가진 전체 길이의 음악을 생성함을 확인했습니다.
English
Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure.

Summary

AI-Generated Summary

PDF281December 15, 2024