Conditionnement audio pour la génération musicale via des caractéristiques de goulot d'étranglement discrètes
Audio Conditioning for Music Generation via Discrete Bottleneck Features
July 17, 2024
Auteurs: Simon Rouard, Yossi Adi, Jade Copet, Axel Roebel, Alexandre Défossez
cs.AI
Résumé
Alors que la plupart des modèles de génération musicale utilisent un conditionnement textuel ou paramétrique (par exemple, tempo, harmonie, genre musical), nous proposons de conditionner un système de génération musicale basé sur un modèle de langage avec une entrée audio. Notre exploration implique deux stratégies distinctes. La première stratégie, appelée inversion textuelle, exploite un modèle pré-entraîné de texte-à-musique pour mapper l'entrée audio à des "pseudomots" correspondants dans l'espace d'embedding textuel. Pour le second modèle, nous entraînons un modèle de langage musical à partir de zéro conjointement avec un conditionneur de texte et un extracteur de caractéristiques audio quantifiées. Au moment de l'inférence, nous pouvons mélanger le conditionnement textuel et audio et les équilibrer grâce à une nouvelle méthode de double guidage sans classifieur. Nous menons des études automatiques et humaines qui valident notre approche. Nous publierons le code et fournirons des échantillons musicaux sur https://musicgenstyle.github.io afin de démontrer la qualité de notre modèle.
English
While most music generation models use textual or parametric conditioning
(e.g. tempo, harmony, musical genre), we propose to condition a language model
based music generation system with audio input. Our exploration involves two
distinct strategies. The first strategy, termed textual inversion, leverages a
pre-trained text-to-music model to map audio input to corresponding
"pseudowords" in the textual embedding space. For the second model we train a
music language model from scratch jointly with a text conditioner and a
quantized audio feature extractor. At inference time, we can mix textual and
audio conditioning and balance them thanks to a novel double classifier free
guidance method. We conduct automatic and human studies that validates our
approach. We will release the code and we provide music samples on
https://musicgenstyle.github.io in order to show the quality of our model.Summary
AI-Generated Summary