Технический отчет StepAudio 2.5

Аннотация

Унифицированное моделирование аудио-языка стало заметной тенденцией в современных речевых системах, обещая привнести способности к рассуждению больших языковых моделей в слуховые задачи. Однако существующие унифицированные основы часто не могут сравниться с глубиной специализированных систем в области автоматического распознавания речи (ASR), синтеза речи из текста (TTS) и интерактивного общения в реальном времени. Преодоление этого разрыва остается открытой задачей. В данном отчете представлена модель StepAudio 2.5 — унифицированная аудио-языковая базовая модель, которая соответствует или превосходит специализированные системы по всем трем возможностям. Вместо того чтобы рассматривать эти задачи как архитектурно различные, мы исходим из предпосылки, что после того, как текст и аудио разделяют мультимодальное репрезентативное пространство, специализация задач становится вопросом операционных режимов: построения данных, целей оптимизации и ограничений декодирования. Руководствуясь этим пониманием, мы продвигаем парадигму пост-обучения от стандартного обучения с учителем к целенаправленному обучению с подкреплением на основе человеческой обратной связи (RLHF), используя его в качестве основного механизма для определения сложных целей оптимизации. Мы используем это ориентированное на RLHF согласование, наряду со специализированным декодированием, чтобы сформировать общий базовый компонент в три различных операционных режима. Конкретно, ветвь ASR повышает эффективность транскрипции с помощью проверяемого многотокенного декодирования; ветвь TTS достигает контролируемого, выразительного синтеза с помощью RLHF на основе предпочтений и контекстно-богатого контроля; а ветвь Realtime реализует диалог с низкой задержкой и согласованностью личности с помощью генеративного моделирования вознаграждения в рамках RLHF. На стандартных тестах StepAudio 2.5 достигает самых современных результатов в ASR, TTS и Realtime, демонстрируя, что единая аудио-языковая основа может успешно интернализировать различные цели развертывания понимания речи, генерации и живого взаимодействия.

English

Unified audio-language modeling has emerged as a prominent trend in modern speech systems, promising to bring the reasoning capabilities of large language models to auditory tasks. However, existing unified foundations often struggle to match the depth of specialized systems across automatic speech recognition (ASR), text-to-speech synthesis (TTS), and realtime spoken interaction. Bridging this gap remains an open challenge. This report presents StepAudio 2.5, a unified audio-language foundation model that matches or exceeds specialized systems across all three capabilities. Rather than treating these tasks as architecturally distinct, we operate on the premise that once text and audio share a multimodal representational space, task specialization becomes a matter of operational regimes: data construction, optimization targets, and decoding constraints. Guided by this insight, we advance the post-training paradigm from standard supervised learning to task-tailored Reinforcement Learning from Human Feedback (RLHF), using it as the primary mechanism to define complex optimization targets. We leverage this RLHF-centric alignment, alongside specialized decoding, to shape a shared backbone into three distinct operational modes. Concretely, the ASR branch advances transcription efficiency via verifiable multi-token decoding; the TTS branch achieves controllable, expressive synthesis through preference-based RLHF and context-rich supervision; and the Realtime branch realizes low-latency, persona-consistent dialogue via generative reward modeling within an RLHF framework. On standard benchmarks, StepAudio 2.5 achieves state-of-the-art results across ASR, TTS, and Realtime, demonstrating that a singular audio-language foundation can successfully internalize the distinct deployment objectives of speech understanding, generation, and live interaction.