Informe Técnico de StepAudio 2.5

Resumen

El modelado unificado de audio-lenguaje se ha consolidado como una tendencia destacada en los sistemas modernos de habla, prometiendo incorporar las capacidades de razonamiento de los grandes modelos de lenguaje a tareas auditivas. Sin embargo, las bases unificadas existentes a menudo tienen dificultades para igualar la profundidad de los sistemas especializados en áreas como el reconocimiento automático del habla (ASR), la síntesis de texto a voz (TTS) y la interacción oral en tiempo real. Superar esta brecha sigue siendo un desafío abierto. Este informe presenta StepAudio 2.5, un modelo fundacional unificado de audio-lenguaje que iguala o supera a los sistemas especializados en las tres capacidades. En lugar de tratar estas tareas como arquitectónicamente distintas, partimos de la premisa de que, una vez que el texto y el audio comparten un espacio representacional multimodal, la especialización de tareas se convierte en una cuestión de regímenes operativos: construcción de datos, objetivos de optimización y restricciones de decodificación. Guiados por esta perspectiva, avanzamos el paradigma de post-entrenamiento desde el aprendizaje supervisado estándar hacia el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) adaptado a tareas, utilizándolo como mecanismo principal para definir objetivos de optimización complejos. Aprovechamos esta alineación centrada en RLHF, junto con una decodificación especializada, para moldear una arquitectura compartida en tres modos operativos distintos. En concreto, la rama ASR mejora la eficiencia de la transcripción mediante una decodificación verificable de múltiples tokens; la rama TTS logra una síntesis controlable y expresiva a través de RLHF basado en preferencias y una supervisión rica en contexto; y la rama en Tiempo Real realiza un diálogo de baja latencia y consistente con la persona mediante un modelado de recompensa generativo dentro de un marco RLHF. En puntos de referencia estándar, StepAudio 2.5 alcanza resultados de vanguardia en ASR, TTS y Tiempo Real, demostrando que un modelo fundacional singular de audio-lenguaje puede internalizar con éxito los distintos objetivos de implementación de la comprensión del habla, la generación y la interacción en vivo.

English

Unified audio-language modeling has emerged as a prominent trend in modern speech systems, promising to bring the reasoning capabilities of large language models to auditory tasks. However, existing unified foundations often struggle to match the depth of specialized systems across automatic speech recognition (ASR), text-to-speech synthesis (TTS), and realtime spoken interaction. Bridging this gap remains an open challenge. This report presents StepAudio 2.5, a unified audio-language foundation model that matches or exceeds specialized systems across all three capabilities. Rather than treating these tasks as architecturally distinct, we operate on the premise that once text and audio share a multimodal representational space, task specialization becomes a matter of operational regimes: data construction, optimization targets, and decoding constraints. Guided by this insight, we advance the post-training paradigm from standard supervised learning to task-tailored Reinforcement Learning from Human Feedback (RLHF), using it as the primary mechanism to define complex optimization targets. We leverage this RLHF-centric alignment, alongside specialized decoding, to shape a shared backbone into three distinct operational modes. Concretely, the ASR branch advances transcription efficiency via verifiable multi-token decoding; the TTS branch achieves controllable, expressive synthesis through preference-based RLHF and context-rich supervision; and the Realtime branch realizes low-latency, persona-consistent dialogue via generative reward modeling within an RLHF framework. On standard benchmarks, StepAudio 2.5 achieves state-of-the-art results across ASR, TTS, and Realtime, demonstrating that a singular audio-language foundation can successfully internalize the distinct deployment objectives of speech understanding, generation, and live interaction.