Edición de Audio Cero-Shot No Supervisada y Basada en Texto Utilizando Inversión de DDPM

Resumen

La edición de señales utilizando modelos preentrenados grandes, de manera zero-shot, ha experimentado avances rápidos recientemente en el dominio de las imágenes. Sin embargo, esta tendencia aún no ha llegado al dominio del audio. En este artículo, exploramos dos técnicas de edición zero-shot para señales de audio, que utilizan la inversión de DDPM en modelos de difusión preentrenados. La primera, adoptada del dominio de las imágenes, permite la edición basada en texto. La segunda, es un enfoque novedoso para descubrir direcciones de edición semánticamente significativas sin supervisión. Cuando se aplica a señales de música, este método revela una variedad de modificaciones musicalmente interesantes, desde controlar la participación de instrumentos específicos hasta improvisaciones en la melodía. Se pueden encontrar ejemplos en nuestra página de ejemplos en https://hilamanor.github.io/AudioEditing/ y el código está disponible en https://github.com/hilamanor/AudioEditing/.

English

Editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-shot editing techniques for audio signals, which use DDPM inversion on pre-trained diffusion models. The first, adopted from the image domain, allows text-based editing. The second, is a novel approach for discovering semantically meaningful editing directions without supervision. When applied to music signals, this method exposes a range of musically interesting modifications, from controlling the participation of specific instruments to improvisations on the melody. Samples can be found on our examples page in https://hilamanor.github.io/AudioEditing/ and code can be found in https://github.com/hilamanor/AudioEditing/ .

Edición de Audio Cero-Shot No Supervisada y Basada en Texto Utilizando Inversión de DDPM

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

Resumen

Support