ChatPaper.aiChatPaper

SAO-Instruct: Vrij-vorm Audiobewerking met Behulp van Natuurlijke Taal Instructies

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

October 26, 2025
Auteurs: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer
cs.AI

Samenvatting

Generatieve modellen hebben aanzienlijke vooruitgang geboekt bij het synthetiseren van hoogwaardige audio op basis van korte tekstuele beschrijvingen. Het bewerken van bestaande audio met natuurlijke taal is echter grotendeels onontgonnen gebleven. Bestaande methoden vereisen ofwel een volledige beschrijving van de bewerkte audio, of zijn beperkt tot vooraf gedefinieerde bewerkingsinstructies die weinig flexibiliteit bieden. In dit werk introduceren we SAO-Instruct, een model gebaseerd op Stable Audio Open dat audioclips kan bewerken met behulp van vrije natuurlijke taal instructies. Voor de training van ons model creëren we een dataset van audio-bewerkingstriplets (invoeraudio, bewerkingsinstructie, uitvoeraudio) met behulp van Prompt-to-Prompt, DDPM-inversie en een handmatige bewerkingspipeline. Hoewel deels getraind op synthetische data, generaliseert ons model goed naar echte audioclips uit de praktijk en onbekende bewerkingsinstructies. We tonen aan dat SAO-Instruct competitieve prestaties levert op objectieve metrieken en andere audio-bewerkingsmethoden overtreft in een subjectieve luisterstudie. Om toekomstig onderzoek te stimuleren, maken we onze code en modelgewichten openbaar.
English
Generative models have made significant progress in synthesizing high-fidelity audio from short textual descriptions. However, editing existing audio using natural language has remained largely underexplored. Current approaches either require the complete description of the edited audio or are constrained to predefined edit instructions that lack flexibility. In this work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of editing audio clips using any free-form natural language instruction. To train our model, we create a dataset of audio editing triplets (input audio, edit instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual editing pipeline. Although partially trained on synthetic data, our model generalizes well to real in-the-wild audio clips and unseen edit instructions. We demonstrate that SAO-Instruct achieves competitive performance on objective metrics and outperforms other audio editing approaches in a subjective listening study. To encourage future research, we release our code and model weights.
PDF51December 1, 2025