Relatório Técnico do Step-Audio-EditX

Resumo

Apresentamos o Step-Audio-EditX, o primeiro modelo de áudio baseado em LLM de código aberto que se destaca na edição de áudio expressiva e iterativa, abrangendo emoção, estilo de fala e paralinguística, juntamente com robustas capacidades de conversão de texto em fala (TTS) zero-shot. Nossa principal inovação reside na utilização exclusiva de dados sintéticos de grande margem, o que dispensa a necessidade de prévias baseadas em *embeddings* ou módulos auxiliares. Esta abordagem de aprendizado de grande margem permite tanto o controle iterativo quanto a alta expressividade entre vozes, e representa uma mudança fundamental em relação ao foco convencional no desacoplamento em nível de representação. Os resultados da avaliação demonstram que o Step-Audio-EditX supera tanto o MiniMax-2.6-hd quanto o Doubao-Seed-TTS-2.0 em tarefas de edição de emoção e outras tarefas de controle de granularidade fina.

English

We present Step-Audio-EditX, the first open-source LLM-based audio model excelling at expressive and iterative audio editing encompassing emotion, speaking style, and paralinguistics alongside robust zero-shot text-to-speech (TTS) capabilities.Our core innovation lies in leveraging only large-margin synthetic data, which circumvents the need for embedding-based priors or auxiliary modules. This large-margin learning approach enables both iterative control and high expressivity across voices, and represents a fundamental pivot from the conventional focus on representation-level disentanglement. Evaluation results demonstrate that Step-Audio-EditX surpasses both MiniMax-2.6-hd and Doubao-Seed-TTS-2.0 in emotion editing and other fine-grained control tasks.