ChatPaper.aiChatPaper

Технический отчет по Step-Audio-R1

Step-Audio-R1 Technical Report

November 19, 2025
Авторы: Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Yuxin Li, Daijiao Liu, Yayue Deng, Donghang Wu, Jun Chen, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu
cs.AI

Аннотация

Последние достижения в области моделей рассуждений продемонстрировали впечатляющий успех в текстовой и визуальной областях благодаря расширенным цепочкам мыслей. Однако в аудио-языковых моделях сохраняется загадочный феномен: они стабильно показывают лучшие результаты при минимальных или отсутствующих рассуждениях, что поднимает фундаментальный вопрос — может ли аудиоинтеллект действительно выиграть от продуманного мышления? Мы представляем Step-Audio-R1 — первую модель аудиорассуждений, которая успешно раскрывает способности к рассуждению в аудиодомене. Благодаря предложенной нами структуре Modality-Grounded Reasoning Distillation (MGRD) Step-Audio-R1 обучается генерировать релевантные аудио цепочки рассуждений, которые действительно основаны на акустических особенностях, а не создают несвязанные домыслы. Наша модель демонстрирует мощные возможности аудиорассуждений, превосходя Gemini 2.5 Pro и достигая производительности, сопоставимой с передовой моделью Gemini 3 Pro в комплексных тестах на понимание и рассуждение в аудио, охватывающих речь, окружающие звуки и музыку. Эти результаты показывают, что рассуждение является передаваемой способностью между модальностями при соответствующем закреплении, превращая расширенное обдумывание из недостатка в мощный инструмент для аудиоинтеллекта. Установив первую успешную модель аудиорассуждений, Step-Audio-R1 открывает новые пути для создания truly мультимодальных систем рассуждений, которые глубоко мыслят across всеми сенсорными модальностями.
English
Recent advances in reasoning models have demonstrated remarkable success in text and vision domains through extended chain-of-thought deliberation. However, a perplexing phenomenon persists in audio language models: they consistently perform better with minimal or no reasoning, raising a fundamental question - can audio intelligence truly benefit from deliberate thinking? We introduce Step-Audio-R1, the first audio reasoning model that successfully unlocks reasoning capabilities in the audio domain. Through our proposed Modality-Grounded Reasoning Distillation (MGRD) framework, Step-Audio-R1 learns to generate audio-relevant reasoning chains that genuinely ground themselves in acoustic features rather than hallucinating disconnected deliberations. Our model exhibits strong audio reasoning capabilities, surpassing Gemini 2.5 Pro and achieving performance comparable to the state-of-the-art Gemini 3 Pro across comprehensive audio understanding and reasoning benchmarks spanning speech, environmental sounds, and music. These results demonstrate that reasoning is a transferable capability across modalities when appropriately anchored, transforming extended deliberation from a liability into a powerful asset for audio intelligence. By establishing the first successful audio reasoning model, Step-Audio-R1 opens new pathways toward building truly multimodal reasoning systems that think deeply across all sensory modalities.
PDF515December 1, 2025