Condizionamento audio per la generazione musicale tramite caratteristiche di collo di bottiglia discrete
Audio Conditioning for Music Generation via Discrete Bottleneck Features
July 17, 2024
Autori: Simon Rouard, Yossi Adi, Jade Copet, Axel Roebel, Alexandre Défossez
cs.AI
Abstract
Mentre la maggior parte dei modelli di generazione musicale utilizza condizionamenti testuali o parametrici (ad esempio, tempo, armonia, genere musicale), noi proponiamo di condizionare un sistema di generazione musicale basato su un modello linguistico con input audio. La nostra esplorazione coinvolge due strategie distinte. La prima strategia, denominata inversione testuale, sfrutta un modello pre-addestrato di testo-a-musica per mappare l'input audio a corrispondenti "pseudoparole" nello spazio di embedding testuale. Per il secondo modello, addestriamo un modello linguistico musicale da zero congiuntamente a un condizionatore testuale e a un estrattore di feature audio quantizzate. Al momento dell'inferenza, possiamo combinare condizionamenti testuali e audio e bilanciarli grazie a un nuovo metodo di doppia guida senza classificatore. Abbiamo condotto studi automatici e umani che validano il nostro approccio. Rilasceremo il codice e forniremo campioni musicali su https://musicgenstyle.github.io per dimostrare la qualità del nostro modello.
English
While most music generation models use textual or parametric conditioning
(e.g. tempo, harmony, musical genre), we propose to condition a language model
based music generation system with audio input. Our exploration involves two
distinct strategies. The first strategy, termed textual inversion, leverages a
pre-trained text-to-music model to map audio input to corresponding
"pseudowords" in the textual embedding space. For the second model we train a
music language model from scratch jointly with a text conditioner and a
quantized audio feature extractor. At inference time, we can mix textual and
audio conditioning and balance them thanks to a novel double classifier free
guidance method. We conduct automatic and human studies that validates our
approach. We will release the code and we provide music samples on
https://musicgenstyle.github.io in order to show the quality of our model.