Rapport Technique Step-Audio-R1
Step-Audio-R1 Technical Report
November 19, 2025
papers.authors: Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Yuxin Li, Daijiao Liu, Yayue Deng, Donghang Wu, Jun Chen, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
papers.abstract
Les récents progrès des modèles de raisonnement ont démontré un succès remarquable dans les domaines du texte et de la vision grâce à une délibération étendue de type chaîne de pensée. Cependant, un phénomène déroutant persiste dans les modèles de langage audio : ils obtiennent systématiquement de meilleures performances avec un raisonnement minimal ou nul, soulevant une question fondamentale - l'intelligence audio peut-elle vraiment bénéficier d'une pensée délibérée ? Nous présentons Step-Audio-R1, le premier modèle de raisonnement audio qui déverrouille avec succès les capacités de raisonnement dans le domaine audio. Grâce à notre cadre proposé de Distillation du Raisonnement Ancré dans la Modalité (MGRD), Step-Audio-R1 apprend à générer des chaînes de raisonnement pertinentes pour l'audio qui s'ancrent véritablement dans les caractéristiques acoustiques plutôt que d'halluciner des délibérations déconnectées. Notre modèle présente de solides capacités de raisonnement audio, surpassant Gemini 2.5 Pro et atteignant des performances comparables à l'état de l'art Gemini 3 Pro sur des benchmarks complets de compréhension et de raisonnement audio couvrant la parole, les sons environnementaux et la musique. Ces résultats démontrent que le raisonnement est une capacité transférable entre les modalités lorsqu'il est correctement ancré, transformant la délibération étendue d'un handicap en un atout puissant pour l'intelligence audio. En établissant le premier modèle de raisonnement audio réussi, Step-Audio-R1 ouvre de nouvelles voies vers la construction de systèmes de raisonnement véritablement multimodaux qui pensent profondément à travers toutes les modalités sensorielles.
English
Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.