StepAudio 2.5 Technischer Bericht

Zusammenfassung

Vereinheitlichte Audio-Sprachmodellierung hat sich zu einem prominenten Trend in modernen Sprachsystemen entwickelt und verspricht, die Denkfähigkeiten großer Sprachmodelle auf auditive Aufgaben zu übertragen. Allerdings gelingt es bestehenden vereinheitlichten Grundlagen oft nicht, die Tiefe spezialisierter Systeme in den Bereichen automatische Spracherkennung (ASR), Text-zu-Sprache-Synthese (TTS) und Echtzeit-Sprachinteraktion zu erreichen. Die Überbrückung dieser Kluft bleibt eine offene Herausforderung. Dieser Bericht stellt StepAudio 2.5 vor, ein vereinheitlichtes Audio-Sprach-Grundlagenmodell, das spezialisierte Systeme in allen drei Fähigkeiten erreicht oder übertrifft. Anstatt diese Aufgaben als architektonisch getrennt zu betrachten, gehen wir von der Prämisse aus, dass, sobald Text und Audio einen multimodalen Repräsentationsraum teilen, die Aufgabenspezialisierung zu einer Frage der Betriebsregime wird: Datenkonstruktion, Optimierungsziele und Dekodierungsbeschränkungen. Geleitet von dieser Erkenntnis erweitern wir das Post-Training-Paradigma von standardmäßigem überwachten Lernen hin zu aufgabenangepasstem Reinforcement Learning from Human Feedback (RLHF) und nutzen es als primären Mechanismus zur Definition komplexer Optimierungsziele. Wir verwenden diese RLHF-zentrierte Ausrichtung zusammen mit spezialisierter Dekodierung, um ein gemeinsames Rückgrat in drei unterschiedliche Betriebsmodi zu formen. Konkret verbessert der ASR-Zweig die Transkriptionseffizienz durch verifizierbare Multi-Token-Dekodierung; der TTS-Zweig erreicht kontrollierbare, ausdrucksstarke Synthese durch präferenzbasiertes RLHF und kontextreiche Überwachung; und der Echtzeit-Zweig realisiert latenzarme, personenkonsistente Dialoge durch generatives Belohnungsmodellieren innerhalb eines RLHF-Rahmens. In Standard-Benchmarks erzielt StepAudio 2.5 Spitzenergebnisse in ASR, TTS und Echtzeit und demonstriert damit, dass eine singuläre Audio-Sprach-Grundlage erfolgreich die unterschiedlichen Einsatzziele von Sprachverstehen, -generierung und Live-Interaktion verinnerlichen kann.

English

Unified audio-language modeling has emerged as a prominent trend in modern speech systems, promising to bring the reasoning capabilities of large language models to auditory tasks. However, existing unified foundations often struggle to match the depth of specialized systems across automatic speech recognition (ASR), text-to-speech synthesis (TTS), and realtime spoken interaction. Bridging this gap remains an open challenge. This report presents StepAudio 2.5, a unified audio-language foundation model that matches or exceeds specialized systems across all three capabilities. Rather than treating these tasks as architecturally distinct, we operate on the premise that once text and audio share a multimodal representational space, task specialization becomes a matter of operational regimes: data construction, optimization targets, and decoding constraints. Guided by this insight, we advance the post-training paradigm from standard supervised learning to task-tailored Reinforcement Learning from Human Feedback (RLHF), using it as the primary mechanism to define complex optimization targets. We leverage this RLHF-centric alignment, alongside specialized decoding, to shape a shared backbone into three distinct operational modes. Concretely, the ASR branch advances transcription efficiency via verifiable multi-token decoding; the TTS branch achieves controllable, expressive synthesis through preference-based RLHF and context-rich supervision; and the Realtime branch realizes low-latency, persona-consistent dialogue via generative reward modeling within an RLHF framework. On standard benchmarks, StepAudio 2.5 achieves state-of-the-art results across ASR, TTS, and Realtime, demonstrating that a singular audio-language foundation can successfully internalize the distinct deployment objectives of speech understanding, generation, and live interaction.