DDPM逆変換を用いたゼロショット教師なしテキストベース音声編集
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
February 15, 2024
著者: Hila Manor, Tomer Michaeli
cs.AI
要旨
大規模な事前学習モデルを用いたゼロショット編集手法は、最近画像領域で急速な進展を見せています。しかし、この潮流はまだ音声領域には到達していません。本論文では、事前学習済み拡散モデルに対するDDPM逆変換を用いた、音声信号のための2つのゼロショット編集技術を探求します。1つ目は画像領域から採用されたテキストベースの編集手法です。2つ目は、教師なしで意味的に有意義な編集方向を発見する新しいアプローチです。この手法を音楽信号に適用すると、特定の楽器の参加度を制御するものからメロディーの即興演奏に至るまで、音楽的に興味深い多様な変更が明らかになります。サンプルはhttps://hilamanor.github.io/AudioEditing/の例示ページで、コードはhttps://github.com/hilamanor/AudioEditing/でご覧いただけます。
English
Editing signals using large pre-trained models, in a zero-shot manner, has
recently seen rapid advancements in the image domain. However, this wave has
yet to reach the audio domain. In this paper, we explore two zero-shot editing
techniques for audio signals, which use DDPM inversion on pre-trained diffusion
models. The first, adopted from the image domain, allows text-based editing.
The second, is a novel approach for discovering semantically meaningful editing
directions without supervision. When applied to music signals, this method
exposes a range of musically interesting modifications, from controlling the
participation of specific instruments to improvisations on the melody. Samples
can be found on our examples page in https://hilamanor.github.io/AudioEditing/
and code can be found in https://github.com/hilamanor/AudioEditing/ .