ChatPaper.aiChatPaper

Édition audio sans supervision et basée sur texte en Zero-Shot utilisant l'inversion de DDPM

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

February 15, 2024
papers.authors: Hila Manor, Tomer Michaeli
cs.AI

papers.abstract

L'édition de signaux à l'aide de grands modèles pré-entraînés, de manière zero-shot, a récemment connu des avancées rapides dans le domaine de l'image. Cependant, cette vague n'a pas encore atteint le domaine audio. Dans cet article, nous explorons deux techniques d'édition zero-shot pour les signaux audio, qui utilisent l'inversion DDPM sur des modèles de diffusion pré-entraînés. La première, adaptée du domaine de l'image, permet une édition basée sur le texte. La seconde est une approche novatrice pour découvrir des directions d'édition sémantiquement significatives sans supervision. Appliquée aux signaux musicaux, cette méthode révèle une gamme de modifications musicalement intéressantes, allant du contrôle de la participation d'instruments spécifiques à des improvisations sur la mélodie. Des échantillons peuvent être trouvés sur notre page d'exemples à l'adresse https://hilamanor.github.io/AudioEditing/ et le code est disponible à l'adresse https://github.com/hilamanor/AudioEditing/.
English
Editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-shot editing techniques for audio signals, which use DDPM inversion on pre-trained diffusion models. The first, adopted from the image domain, allows text-based editing. The second, is a novel approach for discovering semantically meaningful editing directions without supervision. When applied to music signals, this method exposes a range of musically interesting modifications, from controlling the participation of specific instruments to improvisations on the melody. Samples can be found on our examples page in https://hilamanor.github.io/AudioEditing/ and code can be found in https://github.com/hilamanor/AudioEditing/ .
PDF232December 15, 2024