SAO-Instruct: 自然言語を用いた自由形式の音声編集 インストラクション
SAO-Instruct: Free-form Audio Editing using Natural Language Instructions
October 26, 2025
著者: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer
cs.AI
要旨
生成モデルは、短いテキスト記述から高忠実度のオーディオを合成する分野で大きな進歩を遂げてきた。しかし、自然言語を用いた既存オーディオの編集技術は、依然として未開拓の領域が多い。既存の手法では、編集後のオーディオを完全に記述する必要があるか、あるいは事前定義された編集指示に制限され柔軟性に欠ける。本研究では、Stable Audio Openを基盤としたSAO-Instructモデルを提案する。このモデルは任意の自由形式の自然言語指示を用いてオーディオクリップを編集できる。モデル学習のために、Prompt-to-Prompt、DDPM反転、手動編集パイプラインを組み合わせたオーディオ編集トリプレット(入力オーディオ、編集指示、出力オーディオ)データセットを構築した。合成データで部分的に学習されているものの、本モデルは実世界のオーディオクリップや未学習の編集指示に対しても良好な汎化性能を示す。SAO-Instructは客観的指標で競合性能を達成し、主観的聴取実験において他のオーディオ編集手法を凌駕することを実証する。今後の研究発展を促進するため、コードとモデル重みを公開する。
English
Generative models have made significant progress in synthesizing
high-fidelity audio from short textual descriptions. However, editing existing
audio using natural language has remained largely underexplored. Current
approaches either require the complete description of the edited audio or are
constrained to predefined edit instructions that lack flexibility. In this
work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of
editing audio clips using any free-form natural language instruction. To train
our model, we create a dataset of audio editing triplets (input audio, edit
instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual
editing pipeline. Although partially trained on synthetic data, our model
generalizes well to real in-the-wild audio clips and unseen edit instructions.
We demonstrate that SAO-Instruct achieves competitive performance on objective
metrics and outperforms other audio editing approaches in a subjective
listening study. To encourage future research, we release our code and model
weights.