Édition audio sans supervision et basée sur texte en Zero-Shot utilisant l'inversion de DDPM
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
February 15, 2024
papers.authors: Hila Manor, Tomer Michaeli
cs.AI
papers.abstract
L'édition de signaux à l'aide de grands modèles pré-entraînés, de manière zero-shot, a récemment connu des avancées rapides dans le domaine de l'image. Cependant, cette vague n'a pas encore atteint le domaine audio. Dans cet article, nous explorons deux techniques d'édition zero-shot pour les signaux audio, qui utilisent l'inversion DDPM sur des modèles de diffusion pré-entraînés. La première, adaptée du domaine de l'image, permet une édition basée sur le texte. La seconde est une approche novatrice pour découvrir des directions d'édition sémantiquement significatives sans supervision. Appliquée aux signaux musicaux, cette méthode révèle une gamme de modifications musicalement intéressantes, allant du contrôle de la participation d'instruments spécifiques à des improvisations sur la mélodie. Des échantillons peuvent être trouvés sur notre page d'exemples à l'adresse https://hilamanor.github.io/AudioEditing/ et le code est disponible à l'adresse https://github.com/hilamanor/AudioEditing/.
English
Editing signals using large pre-trained models, in a zero-shot manner, has
recently seen rapid advancements in the image domain. However, this wave has
yet to reach the audio domain. In this paper, we explore two zero-shot editing
techniques for audio signals, which use DDPM inversion on pre-trained diffusion
models. The first, adopted from the image domain, allows text-based editing.
The second, is a novel approach for discovering semantically meaningful editing
directions without supervision. When applied to music signals, this method
exposes a range of musically interesting modifications, from controlling the
participation of specific instruments to improvisations on the melody. Samples
can be found on our examples page in https://hilamanor.github.io/AudioEditing/
and code can be found in https://github.com/hilamanor/AudioEditing/ .