Relatório Técnico do Step-Audio-R1

Resumo

Avanços recentes em modelos de raciocínio demonstraram sucesso notável em domínios de texto e imagem por meio de deliberação estendida de cadeia de pensamento. No entanto, um fenômeno intrigante persiste em modelos de linguagem de áudio: eles consistentemente apresentam melhor desempenho com raciocínio mínimo ou nulo, levantando uma questão fundamental - a inteligência de áudio pode realmente se beneficiar do pensamento deliberado? Apresentamos o Step-Audio-R1, o primeiro modelo de raciocínio de áudio que desbloqueia com sucesso capacidades de raciocínio no domínio sonoro. Através de nossa estrutura proposta de Distilação de Raciocínio Fundamentado em Modalidade (MGRD), o Step-Audio-R1 aprende a gerar cadeias de raciocínio relevantes para áudio que genuinamente se fundamentam em características acústicas, em vez de alucinar deliberações desconectadas. Nosso modelo exibe fortes capacidades de raciocínio auditivo, superando o Gemini 2.5 Pro e alcançando desempenho comparável ao estado da arte Gemini 3 Pro em benchmarks abrangentes de compreensão e raciocínio de áudio abrangendo fala, sons ambientais e música. Esses resultados demonstram que o raciocínio é uma capacidade transferível entre modalidades quando adequadamente ancorada, transformando a deliberação estendida de um passivo em um recurso poderoso para a inteligência de áudio. Ao estabelecer o primeiro modelo de raciocínio de áudio bem-sucedido, o Step-Audio-R1 abre novos caminhos para a construção de sistemas de raciocínio verdadeiramente multimodais que pensam profundamente em todas as modalidades sensoriais.

English

Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.