ChatPaper.aiChatPaper

SAO-Instruct: 자연어를 활용한 자유 형식 오디오 편집 지침

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

October 26, 2025
저자: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer
cs.AI

초록

생성 모델은 짧은 텍스트 설명으로부터 고품질 오디오를 합성하는 데 상당한 진전을 이루었습니다. 그러나 자연어를 이용한 기존 오디오 편집은 여전히 크게 탐구되지 않은 분야로 남아 있습니다. 기존 접근법들은 편집된 오디오에 대한 완전한 설명을 요구하거나, 미리 정의된 유연성이 부족한 편집 지시에 제한되는 한계가 있습니다. 본 연구에서는 Stable Audio Open 기반의 SAO-Instruct 모델을 소개하며, 이는 자유 형식의 자연어 지시를 사용하여 오디오 클립을 편집할 수 있습니다. 모델 학습을 위해 Prompt-to-Prompt, DDPM inversion 및 수동 편집 파이프라인을 활용하여 오디오 편집 삼중항(입력 오디오, 편집 지시, 출력 오디오) 데이터셋을 구축했습니다. 부분적으로 합성 데이터로 학습되었음에도 불구하고, 본 모델은 실제 환경의 오디오 클립과 보지 않은 편집 지시에 대해 잘 일반화됩니다. SAO-Instruct가 객관적 지표에서 경쟁력 있는 성능을 달성하고, 주관적 청취 평가에서 다른 오디오 편집 접근법들을 능가함을 입증합니다. 향후 연구를 촉진하기 위해 코드와 모델 가중치를 공개합니다.
English
Generative models have made significant progress in synthesizing high-fidelity audio from short textual descriptions. However, editing existing audio using natural language has remained largely underexplored. Current approaches either require the complete description of the edited audio or are constrained to predefined edit instructions that lack flexibility. In this work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of editing audio clips using any free-form natural language instruction. To train our model, we create a dataset of audio editing triplets (input audio, edit instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual editing pipeline. Although partially trained on synthetic data, our model generalizes well to real in-the-wild audio clips and unseen edit instructions. We demonstrate that SAO-Instruct achieves competitive performance on objective metrics and outperforms other audio editing approaches in a subjective listening study. To encourage future research, we release our code and model weights.
PDF51December 1, 2025