SAO-Instruct: Edición de Audio Libre mediante Lenguaje Natural Instrucciones
SAO-Instruct: Free-form Audio Editing using Natural Language Instructions
October 26, 2025
Autores: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer
cs.AI
Resumen
Los modelos generativos han logrado avances significativos en la síntesis de audio de alta fidelidad a partir de descripciones textuales breves. Sin embargo, la edición de audio existente mediante lenguaje natural ha permanecido en gran medida inexplorada. Los enfoques actuales requieren la descripción completa del audio editado o están limitados a instrucciones de edición predefinidas que carecen de flexibilidad. En este trabajo, presentamos SAO-Instruct, un modelo basado en Stable Audio Open capaz de editar fragmentos de audio utilizando cualquier instrucción en lenguaje natural de forma libre. Para entrenar nuestro modelo, creamos un conjunto de datos de tripletas de edición de audio (audio de entrada, instrucción de edición, audio de salida) utilizando Prompt-to-Prompt, inversión DDPM y un flujo de trabajo de edición manual. Aunque entrenado parcialmente con datos sintéticos, nuestro modelo se generaliza adecuadamente a fragmentos de audio reales en entornos no controlados y a instrucciones de edición no vistas. Demostramos que SAO-Instruct logra un rendimiento competitivo en métricas objetivas y supera a otros enfoques de edición de audio en un estudio de escucha subjetiva. Para fomentar investigaciones futuras, publicamos nuestro código y los pesos del modelo.
English
Generative models have made significant progress in synthesizing
high-fidelity audio from short textual descriptions. However, editing existing
audio using natural language has remained largely underexplored. Current
approaches either require the complete description of the edited audio or are
constrained to predefined edit instructions that lack flexibility. In this
work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of
editing audio clips using any free-form natural language instruction. To train
our model, we create a dataset of audio editing triplets (input audio, edit
instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual
editing pipeline. Although partially trained on synthetic data, our model
generalizes well to real in-the-wild audio clips and unseen edit instructions.
We demonstrate that SAO-Instruct achieves competitive performance on objective
metrics and outperforms other audio editing approaches in a subjective
listening study. To encourage future research, we release our code and model
weights.