Technisch Rapport Step-Audio-R1.5
Step-Audio-R1.5 Technical Report
April 28, 2026
Auteurs: Yuxin Zhang, Xiangyu Tony Zhang, Daijiao Liu, Fei Tian, Yayue Deng, Jun Chen, Qingjian Lin, Haoyang Zhang, Yuxin Li, Jinglan Gong, Yechang Huang, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Gang Yu, Xiangyu Zhang, Daxin Jiang
cs.AI
Samenvatting
Recente vooruitgang in grote audiotalmodellen heeft Chain-of-Thought (CoT)-redenering uitgebreid naar het auditieve domein, waardoor modellen steeds complexere akoestische en gesproken taken kunnen aanpakken. Om deze uitgebreide redeneerketens op te wekken en te onderhouden, vertrouwt het heersende paradigma – gedreven door het succes van op tekst gebaseerde redeneermodellen – overweldigend op Reinforcement Learning with Verified Rewards (RLVR). Naarmate modellen echter strikt worden geoptimaliseerd om rijke, continue auditieve contexten te destilleren tot geïsoleerde, verifieerbare tekstlabels, rijst een fundamentele vraag: bevorderen we ware audio-intelligentie, of reduceren we een continu zintuiglijk medium slechts tot een discreet raadsel? Wij identificeren dit als de "valstrik van de verifieerbare beloning". Hoewel RLVR opmerkelijke scores behaalt op gestandaardiseerde objectieve benchmarks, degradeert het systematisch het realistische gespreksgevoel van audiomodellen. Door geïsoleerde correctheid boven akoestische nuance te stellen, reduceert RLVR dynamische interacties tot mechanische "antwoordmachines", wat de prosodische natuurlijkheid, emotionele continuïteit en gebruikersimmersie ernstig aantast, vooral in lange dialogen. Om de kloof te overbruggen tussen mechanische objectieve verificatie en echte zintuiglijke empathie, introduceren we Step-Audio-R1.5, wat een paradigmaverschuiving markeert naar Reinforcement Learning from Human Feedback (RLHF) in audioredenatie. Uitgebreide evaluaties tonen aan dat Step-Audio-R1.5 niet alleen robuuste analytische redeneervaardigheden behoudt, maar ook de interactieve ervaring diepgaand transformeert, waardoor de grenzen van diepgaand meeslepende, lange gesproken dialogen worden herzien.
English
Recent advancements in large audio language models have extended Chain-of-Thought (CoT) reasoning into the auditory domain, enabling models to tackle increasingly complex acoustic and spoken tasks. To elicit and sustain these extended reasoning chains, the prevailing paradigm -- driven by the success of text-based reasoning models -- overwhelmingly relies on Reinforcement Learning with Verified Rewards (RLVR). However, as models are strictly optimized to distill rich, continuous auditory contexts into isolated, verifiable text labels, a fundamental question arises: are we fostering true audio intelligence, or merely reducing a continuous sensory medium into a discrete puzzle? We identify this as the "verifiable reward trap." While RLVR yields remarkable scores on standardized objective benchmarks, it systematically degrades the real-world conversational feel of audio models. By prioritizing isolated correctness over acoustic nuance, RLVR reduces dynamic interactions to mechanical "answering machines," severely compromising prosodic naturalness, emotional continuity, and user immersion, particularly in long-turn dialogues. To bridge the gap between mechanical objective verification and genuine sensory empathy, we introduce Step-Audio-R1.5, marking a paradigm shift toward Reinforcement Learning from Human Feedback (RLHF) in audio reasoning. Comprehensive evaluations demonstrate that Step-Audio-R1.5 not only maintains robust analytical reasoning but profoundly transforms the interactive experience, redefining the boundaries of deeply immersive long-turn spoken dialogue.