ChatPaper.aiChatPaper

SAO-Instruct: Свободное редактирование аудио с использованием естественного языка Инструкции

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

October 26, 2025
Авторы: Michael Ungersböck, Florian Grötschla, Luca A. Lanzendörfer, June Young Yi, Changho Choi, Roger Wattenhofer
cs.AI

Аннотация

Генеративные модели достигли значительного прогресса в синтезе аудио с высокой точностью по коротким текстовым описаниям. Однако редактирование существующих аудиозаписей с использованием естественного языка до сих пор остаётся малоизученной областью. Современные подходы либо требуют полного описания редактируемого аудио, либо ограничены предопределёнными инструкциями, что снижает их гибкость. В данной работе мы представляем SAO-Instruct — модель на основе Stable Audio Open, способную редактировать аудиоклипы с использованием произвольных инструкций на естественном языке. Для обучения нашей модели мы создали набор данных из троек редактирования аудио (исходное аудио, инструкция по редактированию, результат) с применением Prompt-to-Prompt, DDPM-инверсии и ручного редактирования. Несмотря на частичное обучение на синтетических данных, наша модель хорошо обобщается на реальные аудиоклипы из открытых источников и ранее не встречавшиеся инструкции. Мы демонстрируем, что SAO-Instruct показывает конкурентоспособные результаты по объективным метрикам и превосходит другие подходы к редактированию аудио в субъективном прослушивании. Для содействия будущим исследованиям мы публикуем наш код и веса модели.
English
Generative models have made significant progress in synthesizing high-fidelity audio from short textual descriptions. However, editing existing audio using natural language has remained largely underexplored. Current approaches either require the complete description of the edited audio or are constrained to predefined edit instructions that lack flexibility. In this work, we introduce SAO-Instruct, a model based on Stable Audio Open capable of editing audio clips using any free-form natural language instruction. To train our model, we create a dataset of audio editing triplets (input audio, edit instruction, output audio) using Prompt-to-Prompt, DDPM inversion, and a manual editing pipeline. Although partially trained on synthetic data, our model generalizes well to real in-the-wild audio clips and unseen edit instructions. We demonstrate that SAO-Instruct achieves competitive performance on objective metrics and outperforms other audio editing approaches in a subjective listening study. To encourage future research, we release our code and model weights.
PDF51December 1, 2025