Edição de Áudio Baseada em Texto e Não Supervisionada em Zero-Shot Usando Inversão de DDPM
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
February 15, 2024
Autores: Hila Manor, Tomer Michaeli
cs.AI
Resumo
A edição de sinais utilizando grandes modelos pré-treinados, de maneira zero-shot, tem visto avanços rápidos recentemente no domínio de imagens. No entanto, essa onda ainda não atingiu o domínio do áudio. Neste artigo, exploramos duas técnicas de edição zero-shot para sinais de áudio, que utilizam inversão DDPM em modelos de difusão pré-treinados. A primeira, adotada do domínio de imagens, permite a edição baseada em texto. A segunda é uma abordagem nova para descobrir direções de edição semanticamente significativas sem supervisão. Quando aplicada a sinais musicais, esse método revela uma variedade de modificações musicalmente interessantes, desde o controle da participação de instrumentos específicos até improvisações na melodia. Amostras podem ser encontradas em nossa página de exemplos em https://hilamanor.github.io/AudioEditing/ e o código pode ser encontrado em https://github.com/hilamanor/AudioEditing/.
English
Editing signals using large pre-trained models, in a zero-shot manner, has
recently seen rapid advancements in the image domain. However, this wave has
yet to reach the audio domain. In this paper, we explore two zero-shot editing
techniques for audio signals, which use DDPM inversion on pre-trained diffusion
models. The first, adopted from the image domain, allows text-based editing.
The second, is a novel approach for discovering semantically meaningful editing
directions without supervision. When applied to music signals, this method
exposes a range of musically interesting modifications, from controlling the
participation of specific instruments to improvisations on the melody. Samples
can be found on our examples page in https://hilamanor.github.io/AudioEditing/
and code can be found in https://github.com/hilamanor/AudioEditing/ .