Condicionamento de Áudio para Geração de Música por meio de Características de Bottleneck Discretas
Audio Conditioning for Music Generation via Discrete Bottleneck Features
July 17, 2024
Autores: Simon Rouard, Yossi Adi, Jade Copet, Axel Roebel, Alexandre Défossez
cs.AI
Resumo
Enquanto a maioria dos modelos de geração de música usa condicionamento textual ou paramétrico (por exemplo, tempo, harmonia, gênero musical), propomos condicionar um sistema de geração de música baseado em modelos de linguagem com entrada de áudio. Nossa exploração envolve duas estratégias distintas. A primeira estratégia, denominada inversão textual, aproveita um modelo pré-treinado de texto para música para mapear a entrada de áudio para "pseudopalavras" correspondentes no espaço de incorporação textual. Para o segundo modelo, treinamos um modelo de linguagem musical do zero em conjunto com um condicionador de texto e um extrator de características de áudio quantizado. No momento da inferência, podemos misturar condicionamento textual e de áudio e equilibrá-los graças a um novo método de orientação de duplo classificador livre. Realizamos estudos automáticos e humanos que validam nossa abordagem. Vamos disponibilizar o código e fornecer amostras de música em https://musicgenstyle.github.io para mostrar a qualidade do nosso modelo.
English
While most music generation models use textual or parametric conditioning
(e.g. tempo, harmony, musical genre), we propose to condition a language model
based music generation system with audio input. Our exploration involves two
distinct strategies. The first strategy, termed textual inversion, leverages a
pre-trained text-to-music model to map audio input to corresponding
"pseudowords" in the textual embedding space. For the second model we train a
music language model from scratch jointly with a text conditioner and a
quantized audio feature extractor. At inference time, we can mix textual and
audio conditioning and balance them thanks to a novel double classifier free
guidance method. We conduct automatic and human studies that validates our
approach. We will release the code and we provide music samples on
https://musicgenstyle.github.io in order to show the quality of our model.