Rapporto Tecnico Step-Audio-R1
Step-Audio-R1 Technical Report
November 19, 2025
Autori: Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Yuxin Li, Daijiao Liu, Yayue Deng, Donghang Wu, Jun Chen, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
Abstract
I recenti progressi nei modelli di ragionamento hanno dimostrato notevoli successi nei domini testuali e visivi attraverso deliberazioni estese a catena di pensiero. Tuttavia, un fenomeno sconcertante persiste nei modelli linguistici audio: essi performano costantemente meglio con ragionamenti minimi o nulli, sollevando una questione fondamentale - l'intelligenza audio può realmente trarre beneficio da un pensiero deliberato? Introduciamo Step-Audio-R1, il primo modello di ragionamento audio che sblocca con successo le capacità di ragionamento nel dominio audio. Attraverso il nostro framework proposto di Distillazione del Ragionamento ancorato alla Modalità (MGRD), Step-Audio-R1 impara a generare catene di ragionamento rilevanti per l'audio che si ancorano genuinamente alle caratteristiche acustiche, invece di produrre deliberazioni sconnesse e allucinate. Il nostro modello mostra forti capacità di ragionamento audio, superando Gemini 2.5 Pro e raggiungendo prestazioni paragonabili allo stato dell'arte Gemini 3 Pro in benchmark completi di comprensione e ragionamento audio che abbracciano parlato, suoni ambientali e musica. Questi risultati dimostrano che il ragionamento è una capacità trasferibile tra le modalità quando ancorata appropriatamente, trasformando la deliberazione estesa da uno svantaggio in una potente risorsa per l'intelligenza audio. Stabilendo il primo modello di ragionamento audio di successo, Step-Audio-R1 apre nuove strade verso la costruzione di sistemi di ragionamento veramente multimodali che pensano in profondità attraverso tutte le modalità sensoriali.
English
Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.