Технический отчет Step-Audio-EditX
Step-Audio-EditX Technical Report
November 5, 2025
Авторы: Chao Yan, Boyong Wu, Peng Yang, Pengfei Tan, Guoqiang Hu, Yuxin Zhang, Xiangyu, Zhang, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
Аннотация
Мы представляем Step-Audio-EditX — первую открытую LLM-модель для работы со звуком, которая превосходно выполняет выразительное и итеративное редактирование аудио, включая эмоции, стиль речи и паралингвистические аспекты, а также обладает надежными возможностями zero-shot преобразования текста в речь (TTS). Наша ключевая инновация заключается в использовании исключительно синтетических данных с большим запасом, что позволяет обойтись без априорных данных на основе эмбеддингов или вспомогательных модулей. Такой подход обучения с большим запасом обеспечивает как итеративное управление, так и высокую выразительность для различных голосов, что представляет собой фундаментальный отход от традиционной фокусировки на разделении признаков на уровне представлений. Результаты оценки показывают, что Step-Audio-EditX превосходит как MiniMax-2.6-hd, так и Doubao-Seed-TTS-2.0 в задачах редактирования эмоций и других задач тонкого управления.
English
We present Step-Audio-EditX, the first open-source LLM-based audio model
excelling at expressive and iterative audio editing encompassing emotion,
speaking style, and paralinguistics alongside robust zero-shot text-to-speech
(TTS) capabilities.Our core innovation lies in leveraging only large-margin
synthetic data, which circumvents the need for embedding-based priors or
auxiliary modules. This large-margin learning approach enables both iterative
control and high expressivity across voices, and represents a fundamental pivot
from the conventional focus on representation-level disentanglement. Evaluation
results demonstrate that Step-Audio-EditX surpasses both MiniMax-2.6-hd and
Doubao-Seed-TTS-2.0 in emotion editing and other fine-grained control tasks.