Zero-Shot Onbewaakt en Tekstgebaseerd Audiobewerking met DDPM Inversie
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
February 15, 2024
Auteurs: Hila Manor, Tomer Michaeli
cs.AI
Samenvatting
Het bewerken van signalen met behulp van grote vooraf getrainde modellen, op een zero-shot-manier, heeft recentelijk snelle vooruitgang geboekt in het beelddomein. Deze golf heeft het audiodomein echter nog niet bereikt. In dit artikel onderzoeken we twee zero-shot bewerkingstechnieken voor audiosignalen, die gebruikmaken van DDPM-inversie op vooraf getrainde diffusiemodellen. De eerste, overgenomen uit het beelddomein, maakt tekstgebaseerd bewerken mogelijk. De tweede is een nieuwe benadering voor het ontdekken van semantisch betekenisvolle bewerkingsrichtingen zonder supervisie. Wanneer toegepast op muzieksignalen, onthult deze methode een reeks muzikaal interessante aanpassingen, van het beheersen van de deelname van specifieke instrumenten tot improvisaties op de melodie. Voorbeelden zijn te vinden op onze voorbeeldenpagina op https://hilamanor.github.io/AudioEditing/ en de code is beschikbaar op https://github.com/hilamanor/AudioEditing/.
English
Editing signals using large pre-trained models, in a zero-shot manner, has
recently seen rapid advancements in the image domain. However, this wave has
yet to reach the audio domain. In this paper, we explore two zero-shot editing
techniques for audio signals, which use DDPM inversion on pre-trained diffusion
models. The first, adopted from the image domain, allows text-based editing.
The second, is a novel approach for discovering semantically meaningful editing
directions without supervision. When applied to music signals, this method
exposes a range of musically interesting modifications, from controlling the
participation of specific instruments to improvisations on the melody. Samples
can be found on our examples page in https://hilamanor.github.io/AudioEditing/
and code can be found in https://github.com/hilamanor/AudioEditing/ .