ChatPaper.aiChatPaper

Technischer Bericht zu Step-Audio-R1

Step-Audio-R1 Technical Report

November 19, 2025
papers.authors: Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Yuxin Li, Daijiao Liu, Yayue Deng, Donghang Wu, Jun Chen, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI

papers.abstract

Jüngste Fortschritte bei Reasoning-Modellen haben durch erweiterte Chain-of-Thought-Überlegungen bemerkenswerte Erfolge in Text- und Bilddomänen gezeigt. Jedoch besteht ein rätselhaftes Phänomen bei Audio-Sprachmodellen fort: Sie schneiden konsequent besser mit minimalem oder keinem Reasoning ab, was eine grundlegende Frage aufwirft – kann Audio-Intelligenz wirklich von bewusstem Denken profitieren? Wir stellen Step-Audio-R1 vor, das erste Audio-Reasoning-Modell, das erfolgreich Reasoning-Fähigkeiten in der Audiosphere freisetzt. Durch unseren vorgeschlagenen Modality-Grounded Reasoning Distillation (MGRD)-Rahmen lernt Step-Audio-R1, audiobezogene Reasoning-Ketten zu generieren, die sich tatsächlich in akustischen Merkmalen verankern, anstatt unzusammenhängende Überlegungen zu halluzinieren. Unser Modell zeigt starke Audio-Reasoning-Fähigkeiten, übertrifft Gemini 2.5 Pro und erreicht eine mit dem state-of-the-art Gemini 3 Pro vergleichbare Leistung in umfassenden Audio-Verständnis- und Reasoning-Benchmarks, die Sprache, Umgebungsgeräusche und Musik abdecken. Diese Ergebnisse demonstrieren, dass Reasoning eine übertragbare Fähigkeit über Modalitäten hinweg ist, wenn sie angemessen verankert wird, und verwandelt erweiterte Deliberation von einem Nachteil in einen mächtigen Vorteil für Audio-Intelligenz. Durch die Etablierung des ersten erfolgreichen Audio-Reasoning-Modells eröffnet Step-Audio-R1 neue Wege für den Aufbau wahrhaft multimodaler Reasoning-Systeme, die tiefgründig über alle sensorischen Modalitäten hinweg denken.
English
Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.
PDF515December 1, 2025