Null-Shot unüberwachte und textbasierte Audio-Bearbeitung mittels DDPM-Inversion
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
February 15, 2024
Autoren: Hila Manor, Tomer Michaeli
cs.AI
Zusammenfassung
Die Bearbeitung von Signalen mit großen vortrainierten Modellen in einem Zero-Shot-Ansatz hat in letzter Zeit im Bildbereich rasante Fortschritte erzielt. Diese Entwicklung hat jedoch den Audiobereich noch nicht erreicht. In diesem Artikel untersuchen wir zwei Zero-Shot-Bearbeitungstechniken für Audiosignale, die DDPM-Inversion auf vortrainierten Diffusionsmodellen verwenden. Die erste Technik, die aus dem Bildbereich übernommen wurde, ermöglicht eine textbasierte Bearbeitung. Die zweite ist ein neuartiger Ansatz zur Entdeckung semantisch bedeutsamer Bearbeitungsrichtungen ohne Überwachung. Bei der Anwendung auf Musiksignale offenbart diese Methode eine Reihe musikalisch interessanter Modifikationen, von der Steuerung der Beteiligung bestimmter Instrumente bis hin zu Improvisationen der Melodie. Beispiele finden Sie auf unserer Beispielseite unter https://hilamanor.github.io/AudioEditing/ und der Code ist unter https://github.com/hilamanor/AudioEditing/ verfügbar.
English
Editing signals using large pre-trained models, in a zero-shot manner, has
recently seen rapid advancements in the image domain. However, this wave has
yet to reach the audio domain. In this paper, we explore two zero-shot editing
techniques for audio signals, which use DDPM inversion on pre-trained diffusion
models. The first, adopted from the image domain, allows text-based editing.
The second, is a novel approach for discovering semantically meaningful editing
directions without supervision. When applied to music signals, this method
exposes a range of musically interesting modifications, from controlling the
participation of specific instruments to improvisations on the melody. Samples
can be found on our examples page in https://hilamanor.github.io/AudioEditing/
and code can be found in https://github.com/hilamanor/AudioEditing/ .Summary
AI-Generated Summary