ChatPaper.aiChatPaper

Audiokonditionierung für die Musikgenerierung mittels diskreter Engpassmerkmale

Audio Conditioning for Music Generation via Discrete Bottleneck Features

July 17, 2024
Autoren: Simon Rouard, Yossi Adi, Jade Copet, Axel Roebel, Alexandre Défossez
cs.AI

Zusammenfassung

Während die meisten Musikgenerierungsmodelle textuelle oder parametrische Konditionierung verwenden (z. B. Tempo, Harmonie, musikalisches Genre), schlagen wir vor, ein Sprachmodell-basiertes Musikgenerierungssystem mit Audioeingabe zu konditionieren. Unsere Untersuchung umfasst zwei verschiedene Strategien. Die erste Strategie, genannt textuelle Umkehrung, nutzt ein vortrainiertes Text-zu-Musik-Modell, um Audioeingaben auf entsprechende "Pseudowörter" im textuellen Einbettungsraum abzubilden. Für das zweite Modell trainieren wir ein Musiksprachmodell von Grund auf gemeinsam mit einem Textkonditionierer und einem quantisierten Audio-Merkmal-Extraktor. Zur Inferenzzeit können wir textuelle und Audio-Konditionierung mischen und sie dank einer neuartigen Methode zur doppelten Klassifizierungsfreien Führung ausbalancieren. Wir führen automatische und menschliche Studien durch, die unseren Ansatz validieren. Wir werden den Code veröffentlichen und Musikbeispiele auf https://musicgenstyle.github.io bereitstellen, um die Qualität unseres Modells zu zeigen.
English
While most music generation models use textual or parametric conditioning (e.g. tempo, harmony, musical genre), we propose to condition a language model based music generation system with audio input. Our exploration involves two distinct strategies. The first strategy, termed textual inversion, leverages a pre-trained text-to-music model to map audio input to corresponding "pseudowords" in the textual embedding space. For the second model we train a music language model from scratch jointly with a text conditioner and a quantized audio feature extractor. At inference time, we can mix textual and audio conditioning and balance them thanks to a novel double classifier free guidance method. We conduct automatic and human studies that validates our approach. We will release the code and we provide music samples on https://musicgenstyle.github.io in order to show the quality of our model.

Summary

AI-Generated Summary

PDF72November 28, 2024