ChatPaper.aiChatPaper

Informe Técnico de Step-Audio-EditX

Step-Audio-EditX Technical Report

November 5, 2025
Autores: Chao Yan, Boyong Wu, Peng Yang, Pengfei Tan, Guoqiang Hu, Yuxin Zhang, Xiangyu, Zhang, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI

Resumen

Presentamos Step-Audio-EditX, el primer modelo de audio de código abierto basado en LLM que sobresale en la edición de audio expresiva e iterativa, abarcando emoción, estilo de habla y rasgos paralingüísticos, junto con sólidas capacidades de conversión de texto a voz (TTS) en modo zero-shot. Nuestra innovación principal reside en el aprovechamiento exclusivo de datos sintéticos de gran margen, lo que elimina la necesidad de priores basados en *embeddings* o módulos auxiliares. Este enfoque de aprendizaje de gran margen permite tanto el control iterativo como una alta expresividad entre diferentes voces, y representa un cambio fundamental con respecto al enfoque convencional centrado en el desentrelazado a nivel de representación. Los resultados de la evaluación demuestran que Step-Audio-EditX supera tanto a MiniMax-2.6-hd como a Doubao-Seed-TTS-2.0 en tareas de edición de emociones y otras tareas de control de grano fino.
English
We present Step-Audio-EditX, the first open-source LLM-based audio model excelling at expressive and iterative audio editing encompassing emotion, speaking style, and paralinguistics alongside robust zero-shot text-to-speech (TTS) capabilities.Our core innovation lies in leveraging only large-margin synthetic data, which circumvents the need for embedding-based priors or auxiliary modules. This large-margin learning approach enables both iterative control and high expressivity across voices, and represents a fundamental pivot from the conventional focus on representation-level disentanglement. Evaluation results demonstrate that Step-Audio-EditX surpasses both MiniMax-2.6-hd and Doubao-Seed-TTS-2.0 in emotion editing and other fine-grained control tasks.
PDF283December 2, 2025