ChatPaper.aiChatPaper

Technisch Rapport Step-Audio-R1

Step-Audio-R1 Technical Report

November 19, 2025
Auteurs: Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Yuxin Li, Daijiao Liu, Yayue Deng, Donghang Wu, Jun Chen, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI

Samenvatting

Recente vooruitgang in redeneermodellen heeft opmerkelijke successen geboekt in tekst- en visuele domeinen door middel van uitgebreide ketens van redenering. Er doet zich echter een raadselachtig fenomeen voor bij audiotalmodellen: zij presteren consequent beter met minimale of geen redenering, wat een fundamentele vraag oproept – kan audio-intelligentie daadwerkelijk baat hebben bij doordacht nadenken? Wij introduceren Step-Audio-R1, het eerste audioredeneermodel dat met succes redeneervermogens in het audiodomein ontsluit. Via ons voorgestelde Modality-Grounded Reasoning Distillation (MGRD)-raamwerk leert Step-Audio-R1 audio-relevante redeneerketens te genereren die zich daadwerkelijk verankeren in akoestische kenmerken in plaats van losstaande overwegingen te hallucineren. Ons model vertoont sterke audioredeneervermogens, overtreft Gemini 2.5 Pro en bereikt prestaties vergelijkbaar met de state-of-the-art Gemini 3 Pro in uitgebreide audio-begrips- en redeneerbenchmarks voor spraak, omgevingsgeluiden en muziek. Deze resultaten tonen aan dat redeneren een overdraagbaar vermogen is tussen modaliteiten wanneer het adequaat verankerd is, waardoor uitgebreide beraadslaging verandert van een nadeel in een krachtig instrument voor audio-intelligentie. Door het eerste succesvolle audioredeneermodel te vestigen, opent Step-Audio-R1 nieuwe wegen naar de bouw van werkelijk multimodale redeneersystemen die diepgaand denken over alle zintuiglijke modaliteiten heen.
English
Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.
PDF515December 1, 2025