Rapport Technique de Step-Audio-EditX

Résumé

Nous présentons Step-Audio-EditX, le premier modèle audio open-source basé sur un LLM qui excelle dans l'édition audio expressive et itérative, englobant l'émotion, le style d'élocution et les caractéristiques para-linguistiques, tout en possédant de solides capacités de synthèse vocale (TTS) zero-shot. Notre innovation fondamentale réside dans l'exploitation exclusive de données synthétiques à large marge, ce qui évite le recours à des préalables basés sur des embeddings ou à des modules auxiliaires. Cette approche d'apprentissage à large marge permet à la fois un contrôle itératif et une grande expressivité entre les voix, et représente un changement fondamental par rapport à l'accent conventionnel mis sur la dissociation au niveau de la représentation. Les résultats d'évaluation démontrent que Step-Audio-EditX surpasse à la fois MiniMax-2.6-hd et Doubao-Seed-TTS-2.0 dans les tâches d'édition des émotions et d'autres tâches de contrôle fin.

English

We present Step-Audio-EditX, the first open-source LLM-based audio model excelling at expressive and iterative audio editing encompassing emotion, speaking style, and paralinguistics alongside robust zero-shot text-to-speech (TTS) capabilities.Our core innovation lies in leveraging only large-margin synthetic data, which circumvents the need for embedding-based priors or auxiliary modules. This large-margin learning approach enables both iterative control and high expressivity across voices, and represents a fundamental pivot from the conventional focus on representation-level disentanglement. Evaluation results demonstrate that Step-Audio-EditX surpasses both MiniMax-2.6-hd and Doubao-Seed-TTS-2.0 in emotion editing and other fine-grained control tasks.