ChatPaper.aiChatPaper

Step-Audio-R1.5 技術報告書

Step-Audio-R1.5 Technical Report

April 28, 2026
著者: Yuxin Zhang, Xiangyu Tony Zhang, Daijiao Liu, Fei Tian, Yayue Deng, Jun Chen, Qingjian Lin, Haoyang Zhang, Yuxin Li, Jinglan Gong, Yechang Huang, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Gang Yu, Xiangyu Zhang, Daxin Jiang
cs.AI

要旨

大規模音声言語モデルの最近の進展により、連鎖的思考(Chain-of-Thought:CoT)推論が聴覚領域に拡張され、モデルがますます複雑な音響・音声タスクに取り組めるようになってきた。このような拡張された推論連鎖を誘発・持続させるため、テキストベース推論モデルの成功に牽引された支配的パラダイムは、検証可能報酬による強化学習(RLVR)への過度な依存を示している。しかし、モデルが豊かで連続的な聴覚文脈を孤立した検証可能なテキストラベルへ蒸留するように厳密に最適化されるにつれ、根本的な疑問が生じる:我々は真の音声知能を育んでいるのか、それとも連続的な感覚メディアを単なる離散的なパズルに還元しているだけなのか?我々はこれを「検証可能報酬の罠」と定義する。RLVRは標準化された客観的ベンチマークで顕著なスコアを達成する一方、音声モデルの実世界での会話感覚を体系的に劣化させる。音響的ニュアンスよりも孤立的正解性を優先するRLVRは、動的な相互作用を機械的な「応答マシン」に退化させ、特に長い対話では韻律的自然性、感情的連続性、ユーザーの没入感を深刻に損なう。機械的客観検証と真の感覚的共感の間の隔たりを埋めるため、我々はStep-Audio-R1.5を提案する。これは音声推論における人間フィードバック強化学習(RLHF)へのパラダイム転換を意味する。包括的評価により、Step-Audio-R1.5が堅牢な分析的推論を維持するだけでなく、対話体験を根本的に変革し、深く没入する長い音声対話の境界を再定義することが実証された。
English
Recent advancements in large audio language models have extended Chain-of-Thought (CoT) reasoning into the auditory domain, enabling models to tackle increasingly complex acoustic and spoken tasks. To elicit and sustain these extended reasoning chains, the prevailing paradigm -- driven by the success of text-based reasoning models -- overwhelmingly relies on Reinforcement Learning with Verified Rewards (RLVR). However, as models are strictly optimized to distill rich, continuous auditory contexts into isolated, verifiable text labels, a fundamental question arises: are we fostering true audio intelligence, or merely reducing a continuous sensory medium into a discrete puzzle? We identify this as the "verifiable reward trap." While RLVR yields remarkable scores on standardized objective benchmarks, it systematically degrades the real-world conversational feel of audio models. By prioritizing isolated correctness over acoustic nuance, RLVR reduces dynamic interactions to mechanical "answering machines," severely compromising prosodic naturalness, emotional continuity, and user immersion, particularly in long-turn dialogues. To bridge the gap between mechanical objective verification and genuine sensory empathy, we introduce Step-Audio-R1.5, marking a paradigm shift toward Reinforcement Learning from Human Feedback (RLHF) in audio reasoning. Comprehensive evaluations demonstrate that Step-Audio-R1.5 not only maintains robust analytical reasoning but profoundly transforms the interactive experience, redefining the boundaries of deeply immersive long-turn spoken dialogue.
PDF121April 30, 2026