Step-Audio-R1 기술 보고서
Step-Audio-R1 Technical Report
November 19, 2025
저자: Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Yuxin Li, Daijiao Liu, Yayue Deng, Donghang Wu, Jun Chen, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
초록
최근 추론 모델의 발전은 확장된 생각의 사슬(chain-of-thought) 숙고를 통해 텍스트 및 비전 영역에서 놀라운 성공을 보여주었습니다. 그러나 오디오 언어 모델에서는 난해한 현상이 지속되고 있습니다. 바로 최소한의 추론 또는 추론 없이도 일관되게 더 나은 성능을 보인다는 점으로, 이는 "오디오 지능이 정말로 의도적인 사고로부터 이점을 얻을 수 있는가?"라는 근본적인 질문을 제기합니다. 우리는 오디오 영역에서 최초로 추론 능력을 성공적으로 해금한 오디오 추론 모델인 Step-Audio-R1을 소개합니다. 우리가 제안하는 양식 기반 추론 증류(MGRD) 프레임워크를 통해 Step-Audio-R1은 연결되지 않은 숙고를 환각(hallucinate)하는 대신, 음향 특징에 진정으로 기반을 둔 오디오 관련 추론 체인을 생성하는 법을 학습합니다. 우리 모델은 음성, 환경 음향, 음악에 이르는 포괄적인 오디오 이해 및 추론 벤치마크에서 Gemini 2.5 Pro를 능가하고 최첨단 Gemini 3 Pro에 필적하는 성능을 달성하며 강력한 오디오 추론 능력을 보여줍니다. 이러한 결과는 추론이 적절히 고정(anchor)될 때 양식 간에 전이 가능한 능력임을 입증하며, 오디오 지능에 있어 확장된 숙고를 약점에서 강력한 자산으로 변모시킵니다. 최초의 성공적인 오디오 추론 모델을 구축함으로써, Step-Audio-R1은 모든 감각 양식에 걸쳐 깊이 사고하는 진정한 다중양식(multimodal) 추론 시스템을 구축하는 새로운 길을 열어줍니다.
English
Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.