Modifica Audio Zero-Shot Non Supervisionata e Basata su Testo Utilizzando l'Inversione di DDPM
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
February 15, 2024
Autori: Hila Manor, Tomer Michaeli
cs.AI
Abstract
La modifica di segnali utilizzando modelli pre-addestrati di grandi dimensioni, in modalità zero-shot, ha recentemente registrato rapidi progressi nel dominio delle immagini. Tuttavia, questa tendenza non ha ancora raggiunto il dominio audio. In questo articolo, esploriamo due tecniche di modifica zero-shot per segnali audio, che utilizzano l'inversione DDPM su modelli di diffusione pre-addestrati. La prima, adottata dal dominio delle immagini, consente la modifica basata su testo. La seconda è un approccio innovativo per scoprire direzioni di modifica semanticamente significative senza supervisione. Quando applicato a segnali musicali, questo metodo rivela una gamma di modifiche musicalmente interessanti, dal controllo della partecipazione di strumenti specifici a improvvisazioni sulla melodia. È possibile trovare esempi sulla nostra pagina di esempi all'indirizzo https://hilamanor.github.io/AudioEditing/ e il codice è disponibile all'indirizzo https://github.com/hilamanor/AudioEditing/.
English
Editing signals using large pre-trained models, in a zero-shot manner, has
recently seen rapid advancements in the image domain. However, this wave has
yet to reach the audio domain. In this paper, we explore two zero-shot editing
techniques for audio signals, which use DDPM inversion on pre-trained diffusion
models. The first, adopted from the image domain, allows text-based editing.
The second, is a novel approach for discovering semantically meaningful editing
directions without supervision. When applied to music signals, this method
exposes a range of musically interesting modifications, from controlling the
participation of specific instruments to improvisations on the melody. Samples
can be found on our examples page in https://hilamanor.github.io/AudioEditing/
and code can be found in https://github.com/hilamanor/AudioEditing/ .