ChatPaper.aiChatPaper

SAO-Instruct : Édition audio libre par instructions en langage naturel

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

October 26, 2025
papers.authors: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer
cs.AI

papers.abstract

Les modèles génératifs ont réalisé des progrès significatifs dans la synthèse d'audio de haute fidélité à partir de courtes descriptions textuelles. Cependant, l'édition d'audio existant à l'aide du langage naturel est restée largement inexplorée. Les approches actuelles exigent soit la description complète de l'audio modifié, soit sont limitées à des instructions d'édition prédéfinies manquant de flexibilité. Dans ce travail, nous présentons SAO-Instruct, un modèle basé sur Stable Audio Open capable de modifier des clips audio en utilisant n'importe quelle instruction en langage naturel libre. Pour entraîner notre modèle, nous créons un ensemble de données de triplets d'édition audio (audio d'entrée, instruction d'édition, audio de sortie) en utilisant Prompt-to-Prompt, l'inversion DDPM et un pipeline d'édition manuelle. Bien qu'entraîné partiellement sur des données synthétiques, notre modèle généralise bien aux clips audio réels provenant de sources diverses et à des instructions d'édition non vues. Nous démontrons que SAO-Instruct obtient des performances compétitives sur les métriques objectives et surpasse les autres approches d'édition audio dans une étude d'écoute subjective. Pour encourager les recherches futures, nous publions notre code et les poids de notre modèle.
English
Generative models have made significant progress in synthesizing high-fidelity audio from short textual descriptions. However, editing existing audio using natural language has remained largely underexplored. Current approaches either require the complete description of the edited audio or are constrained to predefined edit instructions that lack flexibility. In this work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of editing audio clips using any free-form natural language instruction. To train our model, we create a dataset of audio editing triplets (input audio, edit instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual editing pipeline. Although partially trained on synthetic data, our model generalizes well to real in-the-wild audio clips and unseen edit instructions. We demonstrate that SAO-Instruct achieves competitive performance on objective metrics and outperforms other audio editing approaches in a subjective listening study. To encourage future research, we release our code and model weights.
PDF51December 1, 2025