ChatPaper.aiChatPaper

SAO-Instruct: Edição de Áudio de Forma Livre usando Linguagem Natural Instruções

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

October 26, 2025
Autores: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer
cs.AI

Resumo

Os modelos generativos têm feito progressos significativos na síntese de áudio de alta fidelidade a partir de breves descrições textuais. No entanto, a edição de áudio existente usando linguagem natural permanece amplamente inexplorada. As abordagens atuais ou exigem a descrição completa do áudio editado ou estão limitadas a instruções de edição predefinidas que carecem de flexibilidade. Neste trabalho, apresentamos o SAO-Instruct, um modelo baseado no Stable Audio Open capaz de editar clipes de áudio usando qualquer instrução em linguagem natural de forma livre. Para treinar nosso modelo, criamos um conjunto de dados de triplas de edição de áudio (áudio de entrada, instrução de edição, áudio de saída) usando Prompt-to-Prompt, inversão DDPM e um pipeline de edição manual. Embora parcialmente treinado com dados sintéticos, nosso modelo generaliza bem para clipes de áudio reais do mundo real e instruções de edição não vistas. Demonstramos que o SAO-Instruct alcança desempenho competitivo em métricas objetivas e supera outras abordagens de edição de áudio em um estudo de escuta subjetiva. Para incentivar pesquisas futuras, disponibilizamos nosso código e os pesos do modelo.
English
Generative models have made significant progress in synthesizing high-fidelity audio from short textual descriptions. However, editing existing audio using natural language has remained largely underexplored. Current approaches either require the complete description of the edited audio or are constrained to predefined edit instructions that lack flexibility. In this work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of editing audio clips using any free-form natural language instruction. To train our model, we create a dataset of audio editing triplets (input audio, edit instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual editing pipeline. Although partially trained on synthetic data, our model generalizes well to real in-the-wild audio clips and unseen edit instructions. We demonstrate that SAO-Instruct achieves competitive performance on objective metrics and outperforms other audio editing approaches in a subjective listening study. To encourage future research, we release our code and model weights.
PDF61February 7, 2026