Null-Shot unüberwachte und textbasierte Audio-Bearbeitung mittels DDPM-Inversion

Zusammenfassung

Die Bearbeitung von Signalen mit großen vortrainierten Modellen in einem Zero-Shot-Ansatz hat in letzter Zeit im Bildbereich rasante Fortschritte erzielt. Diese Entwicklung hat jedoch den Audiobereich noch nicht erreicht. In diesem Artikel untersuchen wir zwei Zero-Shot-Bearbeitungstechniken für Audiosignale, die DDPM-Inversion auf vortrainierten Diffusionsmodellen verwenden. Die erste Technik, die aus dem Bildbereich übernommen wurde, ermöglicht eine textbasierte Bearbeitung. Die zweite ist ein neuartiger Ansatz zur Entdeckung semantisch bedeutsamer Bearbeitungsrichtungen ohne Überwachung. Bei der Anwendung auf Musiksignale offenbart diese Methode eine Reihe musikalisch interessanter Modifikationen, von der Steuerung der Beteiligung bestimmter Instrumente bis hin zu Improvisationen der Melodie. Beispiele finden Sie auf unserer Beispielseite unter https://hilamanor.github.io/AudioEditing/ und der Code ist unter https://github.com/hilamanor/AudioEditing/ verfügbar.

English

Editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-shot editing techniques for audio signals, which use DDPM inversion on pre-trained diffusion models. The first, adopted from the image domain, allows text-based editing. The second, is a novel approach for discovering semantically meaningful editing directions without supervision. When applied to music signals, this method exposes a range of musically interesting modifications, from controlling the participation of specific instruments to improvisations on the melody. Samples can be found on our examples page in https://hilamanor.github.io/AudioEditing/ and code can be found in https://github.com/hilamanor/AudioEditing/ .

Null-Shot unüberwachte und textbasierte Audio-Bearbeitung mittels DDPM-Inversion

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

Zusammenfassung

Support