Technischer Bericht zu Step-Audio-R1.5
Step-Audio-R1.5 Technical Report
April 28, 2026
Autoren: Yuxin Zhang, Xiangyu Tony Zhang, Daijiao Liu, Fei Tian, Yayue Deng, Jun Chen, Qingjian Lin, Haoyang Zhang, Yuxin Li, Jinglan Gong, Yechang Huang, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Gang Yu, Xiangyu Zhang, Daxin Jiang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Audio-Sprachmodellen haben Chain-of-Thought (CoT)-Reasoning auf den auditiven Bereich ausgeweitet, wodurch Modelle zunehmend komplexe akustische und Sprachaufgaben bewältigen können. Um diese erweiterten Denkketten auszulösen und aufrechtzuerhalten, stützt sich das vorherrschende Paradigma – angetrieben durch den Erfolg textbasierter Reasoning-Modelle – überwiegend auf Reinforcement Learning mit verifizierten Belohnungen (RLVR). Da Modelle jedoch strikt darauf optimiert werden, reiche, kontinuierliche auditive Kontexte in isolierte, verifizierbare Textlabels zu destillieren, stellt sich eine grundlegende Frage: Fördern wir wahre Audio-Intelligenz oder reduzieren wir lediglich ein kontinuierliches Sinnesmedium auf ein diskretes Puzzle? Wir identifizieren dies als die "Falle der verifizierbaren Belohnung". Während RLVR bemerkenswerte Ergebnisse auf standardisierten objektiven Benchmarks erzielt, verschlechtert es systematisch das realistische Gesprächsgefühl von Audio-Modellen. Indem es isolierte Korrektheit über akustische Nuancen stellt, reduziert RLVR dynamische Interaktionen auf mechanische "Antwortmaschinen" und beeinträchtigt dabei ernsthaft die prosodische Natürlichkeit, emotionale Kontinuität und Nutzerimmersion, insbesondere in Langzeitdialogen. Um die Lücke zwischen mechanischer objektiver Verifikation und echter sensorischer Empathie zu überbrücken, führen wir Step-Audio-R1.5 ein, das einen Paradigmenwechsel hin zu Reinforcement Learning from Human Feedback (RLHF) im Audio-Reasoning markiert. Umfassende Evaluationen zeigen, dass Step-Audio-R1.5 nicht nur robustes analytisches Reasoning beibehält, sondern das interaktive Erlebnis tiefgreifend transformiert und die Grenzen tief immersiver Langzeit-Sprachdialoge neu definiert.
English
Recent advancements in large audio language models have extended Chain-of-Thought (CoT) reasoning into the auditory domain, enabling models to tackle increasingly complex acoustic and spoken tasks. To elicit and sustain these extended reasoning chains, the prevailing paradigm -- driven by the success of text-based reasoning models -- overwhelmingly relies on Reinforcement Learning with Verified Rewards (RLVR). However, as models are strictly optimized to distill rich, continuous auditory contexts into isolated, verifiable text labels, a fundamental question arises: are we fostering true audio intelligence, or merely reducing a continuous sensory medium into a discrete puzzle? We identify this as the "verifiable reward trap." While RLVR yields remarkable scores on standardized objective benchmarks, it systematically degrades the real-world conversational feel of audio models. By prioritizing isolated correctness over acoustic nuance, RLVR reduces dynamic interactions to mechanical "answering machines," severely compromising prosodic naturalness, emotional continuity, and user immersion, particularly in long-turn dialogues. To bridge the gap between mechanical objective verification and genuine sensory empathy, we introduce Step-Audio-R1.5, marking a paradigm shift toward Reinforcement Learning from Human Feedback (RLHF) in audio reasoning. Comprehensive evaluations demonstrate that Step-Audio-R1.5 not only maintains robust analytical reasoning but profoundly transforms the interactive experience, redefining the boundaries of deeply immersive long-turn spoken dialogue.