Rapporto Tecnico di Step-Audio-EditX
Step-Audio-EditX Technical Report
November 5, 2025
Autori: Chao Yan, Boyong Wu, Peng Yang, Pengfei Tan, Guoqiang Hu, Yuxin Zhang, Xiangyu, Zhang, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
Abstract
Presentiamo Step-Audio-EditX, il primo modello audio open-source basato su LLM che eccelle nell'editing audio espressivo e iterativo, comprendente emozioni, stile di parlato e aspetti paralinguistici, unitamente a solide capacità zero-shot di sintesi vocale da testo (TTS). La nostra innovazione principale risiede nell'utilizzo esclusivo di dati sintetici a grande margine, che evita la necessità di pre-informazioni basate su embedding o moduli ausiliari. Questo approccio di apprendimento a grande margine consente sia un controllo iterativo che un'elevata espressività tra diverse voci, e rappresenta una svolta fondamentale rispetto al focus convenzionale sulla separazione a livello di rappresentazione. I risultati delle valutazioni dimostrano che Step-Audio-EditX supera sia MiniMax-2.6-hd che Doubao-Seed-TTS-2.0 nelle attività di modifica delle emozioni e in altri compiti di controllo fine-granulari.
English
We present Step-Audio-EditX, the first open-source LLM-based audio model
excelling at expressive and iterative audio editing encompassing emotion,
speaking style, and paralinguistics alongside robust zero-shot text-to-speech
(TTS) capabilities.Our core innovation lies in leveraging only large-margin
synthetic data, which circumvents the need for embedding-based priors or
auxiliary modules. This large-margin learning approach enables both iterative
control and high expressivity across voices, and represents a fundamental pivot
from the conventional focus on representation-level disentanglement. Evaluation
results demonstrate that Step-Audio-EditX surpasses both MiniMax-2.6-hd and
Doubao-Seed-TTS-2.0 in emotion editing and other fine-grained control tasks.