SAO-Instruct: Edición de Audio Libre mediante Lenguaje Natural Instrucciones

Resumen

Los modelos generativos han logrado avances significativos en la síntesis de audio de alta fidelidad a partir de descripciones textuales breves. Sin embargo, la edición de audio existente mediante lenguaje natural ha permanecido en gran medida inexplorada. Los enfoques actuales requieren la descripción completa del audio editado o están limitados a instrucciones de edición predefinidas que carecen de flexibilidad. En este trabajo, presentamos SAO-Instruct, un modelo basado en Stable Audio Open capaz de editar fragmentos de audio utilizando cualquier instrucción en lenguaje natural de forma libre. Para entrenar nuestro modelo, creamos un conjunto de datos de tripletas de edición de audio (audio de entrada, instrucción de edición, audio de salida) utilizando Prompt-to-Prompt, inversión DDPM y un flujo de trabajo de edición manual. Aunque entrenado parcialmente con datos sintéticos, nuestro modelo se generaliza adecuadamente a fragmentos de audio reales en entornos no controlados y a instrucciones de edición no vistas. Demostramos que SAO-Instruct logra un rendimiento competitivo en métricas objetivas y supera a otros enfoques de edición de audio en un estudio de escucha subjetiva. Para fomentar investigaciones futuras, publicamos nuestro código y los pesos del modelo.

English

Generative models have made significant progress in synthesizing high-fidelity audio from short textual descriptions. However, editing existing audio using natural language has remained largely underexplored. Current approaches either require the complete description of the edited audio or are constrained to predefined edit instructions that lack flexibility. In this work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of editing audio clips using any free-form natural language instruction. To train our model, we create a dataset of audio editing triplets (input audio, edit instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual editing pipeline. Although partially trained on synthetic data, our model generalizes well to real in-the-wild audio clips and unseen edit instructions. We demonstrate that SAO-Instruct achieves competitive performance on objective metrics and outperforms other audio editing approaches in a subjective listening study. To encourage future research, we release our code and model weights.

SAO-Instruct: Edición de Audio Libre mediante Lenguaje Natural Instrucciones

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

Resumen

Support