ChatPaper.aiChatPaper

SAO-Instruct: Freiform-Audio-Bearbeitung mit natürlicher Sprache Anweisungen

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

October 26, 2025
papers.authors: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer
cs.AI

papers.abstract

Generative Modelle haben bedeutende Fortschritte bei der Synthese von hochwertigen Audiodateien aus kurzen Textbeschreibungen erzielt. Die Bearbeitung bestehender Audiodateien mit natürlicher Sprache wurde jedoch bisher kaum erforscht. Bestehende Ansätze erfordern entweder eine vollständige Beschreibung der bearbeiteten Audiodatei oder sind auf vordefinierte Bearbeitungsanweisungen beschränkt, was ihre Flexibilität einschränkt. In dieser Arbeit stellen wir SAO-Instruct vor, ein auf Stable Audio Open basierendes Modell, das Audiodateien mithilfe beliebiger Freitext-Anweisungen bearbeiten kann. Um unser Modell zu trainieren, erstellen wir einen Datensatz von Audio-Bearbeitungs-Tripeln (Eingabeaudio, Bearbeitungsanweisung, Ausgabeaudio) unter Verwendung von Prompt-to-Prompt, DDPM-Inversion und einer manuellen Bearbeitungspipeline. Obwohl das Modell teilweise mit synthetischen Daten trainiert wurde, generalisiert es gut auf reale Audiodateien aus nicht kontrollierten Quellen und nicht vorgegebene Bearbeitungsanweisungen. Wir zeigen, dass SAO-Instruct eine wettbewerbsfähige Leistung bei objektiven Metriken erzielt und andere Audio-Bearbeitungsansätze in einer subjektiven Hörstudie übertrifft. Um zukünftige Forschung zu fördern, veröffentlichen wir unseren Code und unsere Modellgewichte.
English
Generative models have made significant progress in synthesizing high-fidelity audio from short textual descriptions. However, editing existing audio using natural language has remained largely underexplored. Current approaches either require the complete description of the edited audio or are constrained to predefined edit instructions that lack flexibility. In this work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of editing audio clips using any free-form natural language instruction. To train our model, we create a dataset of audio editing triplets (input audio, edit instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual editing pipeline. Although partially trained on synthetic data, our model generalizes well to real in-the-wild audio clips and unseen edit instructions. We demonstrate that SAO-Instruct achieves competitive performance on objective metrics and outperforms other audio editing approaches in a subjective listening study. To encourage future research, we release our code and model weights.
PDF51December 1, 2025