ChatPaper.aiChatPaper

Modifica Audio Zero-Shot Non Supervisionata e Basata su Testo Utilizzando l'Inversione di DDPM

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

February 15, 2024
Autori: Hila Manor, Tomer Michaeli
cs.AI

Abstract

La modifica di segnali utilizzando modelli pre-addestrati di grandi dimensioni, in modalità zero-shot, ha recentemente registrato rapidi progressi nel dominio delle immagini. Tuttavia, questa tendenza non ha ancora raggiunto il dominio audio. In questo articolo, esploriamo due tecniche di modifica zero-shot per segnali audio, che utilizzano l'inversione DDPM su modelli di diffusione pre-addestrati. La prima, adottata dal dominio delle immagini, consente la modifica basata su testo. La seconda è un approccio innovativo per scoprire direzioni di modifica semanticamente significative senza supervisione. Quando applicato a segnali musicali, questo metodo rivela una gamma di modifiche musicalmente interessanti, dal controllo della partecipazione di strumenti specifici a improvvisazioni sulla melodia. È possibile trovare esempi sulla nostra pagina di esempi all'indirizzo https://hilamanor.github.io/AudioEditing/ e il codice è disponibile all'indirizzo https://github.com/hilamanor/AudioEditing/.
English
Editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-shot editing techniques for audio signals, which use DDPM inversion on pre-trained diffusion models. The first, adopted from the image domain, allows text-based editing. The second, is a novel approach for discovering semantically meaningful editing directions without supervision. When applied to music signals, this method exposes a range of musically interesting modifications, from controlling the participation of specific instruments to improvisations on the melody. Samples can be found on our examples page in https://hilamanor.github.io/AudioEditing/ and code can be found in https://github.com/hilamanor/AudioEditing/ .
PDF222December 15, 2024