ChatPaper.aiChatPaper

Zero-Shot Onbewaakt en Tekstgebaseerd Audiobewerking met DDPM Inversie

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

February 15, 2024
Auteurs: Hila Manor, Tomer Michaeli
cs.AI

Samenvatting

Het bewerken van signalen met behulp van grote vooraf getrainde modellen, op een zero-shot-manier, heeft recentelijk snelle vooruitgang geboekt in het beelddomein. Deze golf heeft het audiodomein echter nog niet bereikt. In dit artikel onderzoeken we twee zero-shot bewerkingstechnieken voor audiosignalen, die gebruikmaken van DDPM-inversie op vooraf getrainde diffusiemodellen. De eerste, overgenomen uit het beelddomein, maakt tekstgebaseerd bewerken mogelijk. De tweede is een nieuwe benadering voor het ontdekken van semantisch betekenisvolle bewerkingsrichtingen zonder supervisie. Wanneer toegepast op muzieksignalen, onthult deze methode een reeks muzikaal interessante aanpassingen, van het beheersen van de deelname van specifieke instrumenten tot improvisaties op de melodie. Voorbeelden zijn te vinden op onze voorbeeldenpagina op https://hilamanor.github.io/AudioEditing/ en de code is beschikbaar op https://github.com/hilamanor/AudioEditing/.
English
Editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-shot editing techniques for audio signals, which use DDPM inversion on pre-trained diffusion models. The first, adopted from the image domain, allows text-based editing. The second, is a novel approach for discovering semantically meaningful editing directions without supervision. When applied to music signals, this method exposes a range of musically interesting modifications, from controlling the participation of specific instruments to improvisations on the melody. Samples can be found on our examples page in https://hilamanor.github.io/AudioEditing/ and code can be found in https://github.com/hilamanor/AudioEditing/ .
PDF222December 15, 2024