ChatPaper.aiChatPaper

이산적 병목 특징을 통한 음악 생성을 위한 오디오 조건화

Audio Conditioning for Music Generation via Discrete Bottleneck Features

July 17, 2024
저자: Simon Rouard, Yossi Adi, Jade Copet, Axel Roebel, Alexandre Défossez
cs.AI

초록

대부분의 음악 생성 모델이 텍스트적 또는 파라미터적 조건화(예: 템포, 화음, 음악 장르)를 사용하는 반면, 우리는 오디오 입력을 기반으로 언어 모델 기반 음악 생성 시스템을 조건화하는 방법을 제안합니다. 우리의 탐구는 두 가지 독특한 전략을 포함합니다. 첫 번째 전략은 '텍스트 역전'이라고 불리며, 사전 훈련된 텍스트-투-뮤직 모델을 활용하여 오디오 입력을 텍스트 임베딩 공간의 해당 "가상 단어"로 매핑합니다. 두 번째 모델을 위해 우리는 텍스트 조건화기와 양자화된 오디오 특징 추출기와 함께 음악 언어 모델을 처음부터 공동으로 훈련시킵니다. 추론 시, 우리는 새로운 이중 분류기 없는 지도 방법 덕분에 텍스트와 오디오 조건화를 혼합하고 균형을 맞출 수 있습니다. 우리는 자동 및 인간 연구를 통해 우리의 접근 방식을 검증합니다. 우리는 모델의 품질을 보여주기 위해 코드를 공개하고 https://musicgenstyle.github.io에서 음악 샘플을 제공할 것입니다.
English
While most music generation models use textual or parametric conditioning (e.g. tempo, harmony, musical genre), we propose to condition a language model based music generation system with audio input. Our exploration involves two distinct strategies. The first strategy, termed textual inversion, leverages a pre-trained text-to-music model to map audio input to corresponding "pseudowords" in the textual embedding space. For the second model we train a music language model from scratch jointly with a text conditioner and a quantized audio feature extractor. At inference time, we can mix textual and audio conditioning and balance them thanks to a novel double classifier free guidance method. We conduct automatic and human studies that validates our approach. We will release the code and we provide music samples on https://musicgenstyle.github.io in order to show the quality of our model.

Summary

AI-Generated Summary

PDF72November 28, 2024