SAO-Instruct: Modifica Audio Libera tramite Linguaggio Naturale Istruzioni
SAO-Instruct: Free-form Audio Editing using Natural Language Instructions
October 26, 2025
Autori: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer
cs.AI
Abstract
I modelli generativi hanno compiuto progressi significativi nella sintesi di audio ad alta fedeltà a partire da brevi descrizioni testuali. Tuttavia, l'editing di audio esistente utilizzando il linguaggio naturale è rimasto in gran parte inesplorato. Gli approcci attuali richiedono la descrizione completa dell'audio modificato o sono limitati a istruzioni di modifica predefinite che mancano di flessibilità. In questo lavoro, introduciamo SAO-Instruct, un modello basato su Stable Audio Open in grado di modificare clip audio utilizzando qualsiasi istruzione in linguaggio naturale libera. Per addestrare il nostro modello, creiamo un dataset di triplette di editing audio (audio di input, istruzione di modifica, audio di output) utilizzando Prompt-to-Prompt, l'inversione DDPM e una pipeline di editing manuale. Sebbene parzialmente addestrato su dati sintetici, il nostro modello si generalizza bene a clip audio reali provenienti dal mondo reale e a istruzioni di modifica non viste. Dimostriamo che SAO-Instruct raggiunge prestazioni competitive su metriche oggettive e supera altri approcci di editing audio in uno studio d'ascolto soggettivo. Per incoraggiare la ricerca futura, rilasciamo il nostro codice e i pesi del modello.
English
Generative models have made significant progress in synthesizing
high-fidelity audio from short textual descriptions. However, editing existing
audio using natural language has remained largely underexplored. Current
approaches either require the complete description of the edited audio or are
constrained to predefined edit instructions that lack flexibility. In this
work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of
editing audio clips using any free-form natural language instruction. To train
our model, we create a dataset of audio editing triplets (input audio, edit
instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual
editing pipeline. Although partially trained on synthetic data, our model
generalizes well to real in-the-wild audio clips and unseen edit instructions.
We demonstrate that SAO-Instruct achieves competitive performance on objective
metrics and outperforms other audio editing approaches in a subjective
listening study. To encourage future research, we release our code and model
weights.