Informe Técnico de Step-Audio-R1
Step-Audio-R1 Technical Report
November 19, 2025
Autores: Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Yuxin Li, Daijiao Liu, Yayue Deng, Donghang Wu, Jun Chen, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI
Resumen
Los recientes avances en modelos de razonamiento han demostrado un éxito notable en dominios de texto y visión mediante cadenas de pensamiento extendidas. Sin embargo, persiste un fenómeno desconcertante en los modelos de lenguaje auditivo: consistentemente obtienen mejores resultados con razonamiento mínimo o nulo, planteando una pregunta fundamental: ¿puede la inteligencia auditiva beneficiarse realmente del pensamiento deliberativo? Presentamos Step-Audio-R1, el primer modelo de razonamiento auditivo que logra desbloquear capacidades de razonamiento en el dominio auditivo. Mediante nuestro marco propuesto de Distilación de Razonamiento Anclado en Modalidad (MGRD), Step-Audio-R1 aprende a generar cadenas de razonamiento relevantes para audio que se anclan genuinamente en características acústicas, en lugar de generar deliberaciones desconectadas. Nuestro modelo exhibe sólidas capacidades de razonamiento auditivo, superando a Gemini 2.5 Pro y alcanzando un rendimiento comparable al estado del arte de Gemini 3 Pro en evaluaciones exhaustivas de comprensión y razonamiento auditivo que abarcan voz, sonidos ambientales y música. Estos resultados demuestran que el razonamiento es una capacidad transferible entre modalidades cuando se ancla adecuadamente, transformando la deliberación extendida de una desventaja en un activo poderoso para la inteligencia auditiva. Al establecer el primer modelo exitoso de razonamiento auditivo, Step-Audio-R1 abre nuevos caminos hacia la construcción de sistemas de razonamiento verdaderamente multimodales que piensan profundamente en todas las modalidades sensoriales.
English
Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.