Edición de Audio Cero-Shot No Supervisada y Basada en Texto Utilizando Inversión de DDPM
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
February 15, 2024
Autores: Hila Manor, Tomer Michaeli
cs.AI
Resumen
La edición de señales utilizando modelos preentrenados grandes, de manera zero-shot, ha experimentado avances rápidos recientemente en el dominio de las imágenes. Sin embargo, esta tendencia aún no ha llegado al dominio del audio. En este artículo, exploramos dos técnicas de edición zero-shot para señales de audio, que utilizan la inversión de DDPM en modelos de difusión preentrenados. La primera, adoptada del dominio de las imágenes, permite la edición basada en texto. La segunda, es un enfoque novedoso para descubrir direcciones de edición semánticamente significativas sin supervisión. Cuando se aplica a señales de música, este método revela una variedad de modificaciones musicalmente interesantes, desde controlar la participación de instrumentos específicos hasta improvisaciones en la melodía. Se pueden encontrar ejemplos en nuestra página de ejemplos en https://hilamanor.github.io/AudioEditing/ y el código está disponible en https://github.com/hilamanor/AudioEditing/.
English
Editing signals using large pre-trained models, in a zero-shot manner, has
recently seen rapid advancements in the image domain. However, this wave has
yet to reach the audio domain. In this paper, we explore two zero-shot editing
techniques for audio signals, which use DDPM inversion on pre-trained diffusion
models. The first, adopted from the image domain, allows text-based editing.
The second, is a novel approach for discovering semantically meaningful editing
directions without supervision. When applied to music signals, this method
exposes a range of musically interesting modifications, from controlling the
participation of specific instruments to improvisations on the melody. Samples
can be found on our examples page in https://hilamanor.github.io/AudioEditing/
and code can be found in https://github.com/hilamanor/AudioEditing/ .Summary
AI-Generated Summary