ステップオーディオエディットX 技術報告書
Step-Audio-EditX Technical Report
November 5, 2025
著者: Chao Yan, Boyong Wu, Peng Yang, Pengfei Tan, Guoqiang Hu, Yuxin Zhang, Xiangyu, Zhang, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
要旨
我々はStep-Audio-EditXを発表します。これは、感情・話し方・副言語情報を含む表現力豊かな反復的音声編集に優れ、堅牢なゼロショットテキスト読み上げ(TTS)機能も備えた、初のオープンソースLLMベース音声モデルです。中核的な革新は、大マージン合成データのみを活用する点にあり、埋め込みベースの事前情報や補助モジュールを必要としません。この大マージン学習アプローチにより、音声に対する反復的制御と高表現性の両方を実現し、従来の表現レベルでの分離に焦点を当てた手法からの根本的転換を意味します。評価結果では、Step-Audio-EditXが感情編集やその他の細粒度制御タスクにおいて、MiniMax-2.6-hdおよびDoubao-Seed-TTS-2.0を凌駕することを実証しています。
English
We present Step-Audio-EditX, the first open-source LLM-based audio model
excelling at expressive and iterative audio editing encompassing emotion,
speaking style, and paralinguistics alongside robust zero-shot text-to-speech
(TTS) capabilities.Our core innovation lies in leveraging only large-margin
synthetic data, which circumvents the need for embedding-based priors or
auxiliary modules. This large-margin learning approach enables both iterative
control and high expressivity across voices, and represents a fundamental pivot
from the conventional focus on representation-level disentanglement. Evaluation
results demonstrate that Step-Audio-EditX surpasses both MiniMax-2.6-hd and
Doubao-Seed-TTS-2.0 in emotion editing and other fine-grained control tasks.