Step-Audio-R1 技術報告書
Step-Audio-R1 Technical Report
November 19, 2025
著者: Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Yuxin Li, Daijiao Liu, Yayue Deng, Donghang Wu, Jun Chen, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
要旨
近年の推論モデルの進歩は、拡張された連鎖思考による熟考を通じて、テキストおよび視覚領域で顕著な成功を収めてきた。しかし、オーディオ言語モデルには不可解な現象が持続している。最小限の推論、あるいは推論なしで一貫して優れた性能を発揮するという傾向は、「オーディオ知能は本当に意図的な思考から恩恵を受け得るのか?」という根源的な疑問を投げかけている。我々は、オーディオ領域で初めて推論能力の解放に成功した最初のオーディオ推論モデル、Step-Audio-R1を提案する。提案するModality-Grounded Reasoning Distillation(MGRD)フレームワークを通じて、Step-Audio-R1は、無関係な熟考を幻覚することなく、音響特徴に真に基づいたオーディオ関連の推論連鎖を生成することを学習する。本モデルは強力なオーディオ推論能力を示し、Gemini 2.5 Proを凌駕し、音声、環境音、音楽にわたる包括的なオーディオ理解および推論ベンチマークにおいて、最先端のGemini 3 Proに匹敵する性能を達成した。これらの結果は、適切に固定化されれば、推論がモダリティを超えて転移可能な能力であることを実証し、拡張された熟考をオーディオ知能における弱点から強力な資産へと変換する。初めて成功したオーディオ推論モデルを確立することにより、Step-Audio-R1は、あらゆる感覚モダリティにわたって深く思考する真にマルチモーダルな推論システムの構築に向けた新たな道筋を開くものである。
English
Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.