Аудио-подготовка для генерации музыки с использованием дискретных бутылочных ограничителей.
Audio Conditioning for Music Generation via Discrete Bottleneck Features
July 17, 2024
Авторы: Simon Rouard, Yossi Adi, Jade Copet, Axel Roebel, Alexandre Défossez
cs.AI
Аннотация
В то время как большинство моделей генерации музыки используют текстовое или параметрическое условие (например, темп, гармония, музыкальный жанр), мы предлагаем условие модели языка на основе аудиовхода для системы генерации музыки. Наше исследование включает в себя две различные стратегии. Первая стратегия, называемая текстовой инверсией, использует предварительно обученную модель текст-музыка для отображения аудиовхода на соответствующие "псевдослова" в пространстве текстовых вложений. Для второй модели мы обучаем языковую модель музыки с нуля совместно с текстовым условием и квантованным извлекателем аудиофункций. На этапе вывода мы можем смешивать текстовое и аудиоусловие и балансировать их благодаря новому методу двойного классификатора для свободного руководства. Мы проводим автоматические и человеческие исследования, которые подтверждают наш подход. Мы выпустим код, и предоставим образцы музыки на https://musicgenstyle.github.io, чтобы продемонстрировать качество нашей модели.
English
While most music generation models use textual or parametric conditioning
(e.g. tempo, harmony, musical genre), we propose to condition a language model
based music generation system with audio input. Our exploration involves two
distinct strategies. The first strategy, termed textual inversion, leverages a
pre-trained text-to-music model to map audio input to corresponding
"pseudowords" in the textual embedding space. For the second model we train a
music language model from scratch jointly with a text conditioner and a
quantized audio feature extractor. At inference time, we can mix textual and
audio conditioning and balance them thanks to a novel double classifier free
guidance method. We conduct automatic and human studies that validates our
approach. We will release the code and we provide music samples on
https://musicgenstyle.github.io in order to show the quality of our model.Summary
AI-Generated Summary