Relatório Técnico do StepAudio 2.5

Resumo

A modelagem unificada de áudio e linguagem emergiu como uma tendência proeminente em sistemas modernos de fala, prometendo trazer as capacidades de raciocínio de grandes modelos de linguagem para tarefas auditivas. No entanto, as bases unificadas existentes frequentemente têm dificuldade em igualar a profundidade de sistemas especializados em reconhecimento automático de fala (ASR), síntese de texto em fala (TTS) e interação falada em tempo real. Preencher essa lacuna continua sendo um desafio em aberto. Este relatório apresenta o StepAudio 2.5, um modelo fundamental unificado de áudio e linguagem que iguala ou supera sistemas especializados em todas as três capacidades. Em vez de tratar essas tarefas como arquiteturalmente distintas, partimos da premissa de que, uma vez que texto e áudio compartilham um espaço representacional multimodal, a especialização de tarefas se torna uma questão de regimes operacionais: construção de dados, objetivos de otimização e restrições de decodificação. Guiados por essa percepção, avançamos o paradigma de pós-treinamento do aprendizado supervisionado padrão para o Aprendizagem por Reforço a partir de Feedback Humano (RLHF) adaptado à tarefa, utilizando-o como o principal mecanismo para definir objetivos complexos de otimização. Aproveitamos esse alinhamento centrado em RLHF, juntamente com a decodificação especializada, para moldar um backbone compartilhado em três modos operacionais distintos. Concretamente, o ramo ASR avança a eficiência da transcrição por meio de decodificação verificável de múltiplos tokens; o ramo TTS alcança síntese controlável e expressiva por meio de RLHF baseado em preferências e supervisão rica em contexto; e o ramo em Tempo Real realiza diálogo de baixa latência e consistente com a persona por meio de modelagem generativa de recompensas dentro de uma estrutura RLHF. Em benchmarks padrão, o StepAudio 2.5 alcança resultados de última geração em ASR, TTS e Tempo Real, demonstrando que uma base singular de áudio e linguagem pode internalizar com sucesso os distintos objetivos de implantação de compreensão, geração e interação ao vivo da fala.

English

Unified audio-language modeling has emerged as a prominent trend in modern speech systems, promising to bring the reasoning capabilities of large language models to auditory tasks. However, existing unified foundations often struggle to match the depth of specialized systems across automatic speech recognition (ASR), text-to-speech synthesis (TTS), and realtime spoken interaction. Bridging this gap remains an open challenge. This report presents StepAudio 2.5, a unified audio-language foundation model that matches or exceeds specialized systems across all three capabilities. Rather than treating these tasks as architecturally distinct, we operate on the premise that once text and audio share a multimodal representational space, task specialization becomes a matter of operational regimes: data construction, optimization targets, and decoding constraints. Guided by this insight, we advance the post-training paradigm from standard supervised learning to task-tailored Reinforcement Learning from Human Feedback (RLHF), using it as the primary mechanism to define complex optimization targets. We leverage this RLHF-centric alignment, alongside specialized decoding, to shape a shared backbone into three distinct operational modes. Concretely, the ASR branch advances transcription efficiency via verifiable multi-token decoding; the TTS branch achieves controllable, expressive synthesis through preference-based RLHF and context-rich supervision; and the Realtime branch realizes low-latency, persona-consistent dialogue via generative reward modeling within an RLHF framework. On standard benchmarks, StepAudio 2.5 achieves state-of-the-art results across ASR, TTS, and Realtime, demonstrating that a singular audio-language foundation can successfully internalize the distinct deployment objectives of speech understanding, generation, and live interaction.