Редактирование аудио с нулевым обучением и на основе текста с использованием инверсии DDPM
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
February 15, 2024
Авторы: Hila Manor, Tomer Michaeli
cs.AI
Аннотация
Редактирование сигналов с использованием крупных предобученных моделей в режиме zero-shot в последнее время быстро развивается в области обработки изображений. Однако этот прогресс еще не затронул аудиодомен. В данной статье мы исследуем два метода zero-shot редактирования аудиосигналов, основанных на инверсии DDPM в предобученных диффузионных моделях. Первый метод, заимствованный из области изображений, позволяет выполнять редактирование на основе текста. Второй метод представляет собой новый подход к обнаружению семантически значимых направлений редактирования без использования обучения с учителем. Применение этого метода к музыкальным сигналам раскрывает широкий спектр музыкально интересных модификаций, от управления участием конкретных инструментов до импровизаций с мелодией. Примеры можно найти на нашей странице с примерами по адресу https://hilamanor.github.io/AudioEditing/, а код доступен по ссылке https://github.com/hilamanor/AudioEditing/.
English
Editing signals using large pre-trained models, in a zero-shot manner, has
recently seen rapid advancements in the image domain. However, this wave has
yet to reach the audio domain. In this paper, we explore two zero-shot editing
techniques for audio signals, which use DDPM inversion on pre-trained diffusion
models. The first, adopted from the image domain, allows text-based editing.
The second, is a novel approach for discovering semantically meaningful editing
directions without supervision. When applied to music signals, this method
exposes a range of musically interesting modifications, from controlling the
participation of specific instruments to improvisations on the melody. Samples
can be found on our examples page in https://hilamanor.github.io/AudioEditing/
and code can be found in https://github.com/hilamanor/AudioEditing/ .Summary
AI-Generated Summary