Acondicionamiento de Audio para la Generación de Música a través de Características de Cuello de Botella Discretas
Audio Conditioning for Music Generation via Discrete Bottleneck Features
July 17, 2024
Autores: Simon Rouard, Yossi Adi, Jade Copet, Axel Roebel, Alexandre Défossez
cs.AI
Resumen
Mientras que la mayoría de los modelos de generación de música utilizan condicionamiento textual o paramétrico (por ejemplo, tempo, armonía, género musical), proponemos condicionar un sistema de generación de música basado en modelos de lenguaje con entrada de audio. Nuestra exploración involucra dos estrategias distintas. La primera estrategia, denominada inversión textual, aprovecha un modelo de texto a música pre-entrenado para mapear la entrada de audio a "pseudopalabras" correspondientes en el espacio de incrustación textual. Para el segundo modelo, entrenamos un modelo de lenguaje musical desde cero junto con un condicionador de texto y un extractor de características de audio cuantizadas. En el momento de la inferencia, podemos combinar el condicionamiento textual y de audio y equilibrarlos gracias a un novedoso método de guía de doble clasificador libre. Realizamos estudios automáticos y humanos que validan nuestro enfoque. Publicaremos el código y proporcionaremos muestras de música en https://musicgenstyle.github.io para mostrar la calidad de nuestro modelo.
English
While most music generation models use textual or parametric conditioning
(e.g. tempo, harmony, musical genre), we propose to condition a language model
based music generation system with audio input. Our exploration involves two
distinct strategies. The first strategy, termed textual inversion, leverages a
pre-trained text-to-music model to map audio input to corresponding
"pseudowords" in the textual embedding space. For the second model we train a
music language model from scratch jointly with a text conditioner and a
quantized audio feature extractor. At inference time, we can mix textual and
audio conditioning and balance them thanks to a novel double classifier free
guidance method. We conduct automatic and human studies that validates our
approach. We will release the code and we provide music samples on
https://musicgenstyle.github.io in order to show the quality of our model.