Rapport technique de Step-Audio-R1.5
Step-Audio-R1.5 Technical Report
April 28, 2026
Auteurs: Yuxin Zhang, Xiangyu Tony Zhang, Daijiao Liu, Fei Tian, Yayue Deng, Jun Chen, Qingjian Lin, Haoyang Zhang, Yuxin Li, Jinglan Gong, Yechang Huang, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Gang Yu, Xiangyu Zhang, Daxin Jiang
cs.AI
Résumé
Les récentes avancées des grands modèles linguistiques audio ont étendu le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) au domaine auditif, permettant aux modèles de traiter des tâches acoustiques et orales de plus en plus complexes. Pour susciter et maintenir ces chaînes de raisonnement étendues, le paradigme dominant – influencé par le succès des modèles de raisonnement textuel – repose massivement sur l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR). Cependant, alors que les modèles sont strictement optimisés pour distiller des contextes auditifs riches et continus en des étiquettes textuelles isolées et vérifiables, une question fondamentale se pose : favorisons-nous une véritable intelligence audio, ou réduisons-nous simplement un média sensoriel continu à un puzzle discret ? Nous identifions cela comme le « piège de la récompense vérifiable ». Bien que le RLVR produise des scores remarquables sur des benchmarks objectifs standardisés, il dégrade systématiquement la sensation conversationnelle réelle des modèles audio. En privilégiant l'exactitude isolée au détriment de la nuance acoustique, le RLVR réduit les interactions dynamiques à de simples « machines à répondre » mécaniques, compromettant gravement le naturel prosodique, la continuité émotionnelle et l'immersion de l'utilisateur, particulièrement dans les dialogues à longs tours de parole. Pour combler le fossé entre la vérification objective mécanique et l'empathie sensorielle authentique, nous présentons Step-Audio-R1.5, marquant un changement de paradigme vers l'Apprentissage par Renforcement à partir de Retours Humains (RLHF) dans le raisonnement audio. Des évaluations exhaustives démontrent que Step-Audio-R1.5 maintient non seulement un raisonnement analytique robuste, mais transforme profondément l'expérience interactive, redéfinissant les frontières du dialogue parlé profondément immersif à longs tours.
English
Recent advancements in large audio language models have extended Chain-of-Thought (CoT) reasoning into the auditory domain, enabling models to tackle increasingly complex acoustic and spoken tasks. To elicit and sustain these extended reasoning chains, the prevailing paradigm -- driven by the success of text-based reasoning models -- overwhelmingly relies on Reinforcement Learning with Verified Rewards (RLVR). However, as models are strictly optimized to distill rich, continuous auditory contexts into isolated, verifiable text labels, a fundamental question arises: are we fostering true audio intelligence, or merely reducing a continuous sensory medium into a discrete puzzle? We identify this as the "verifiable reward trap." While RLVR yields remarkable scores on standardized objective benchmarks, it systematically degrades the real-world conversational feel of audio models. By prioritizing isolated correctness over acoustic nuance, RLVR reduces dynamic interactions to mechanical "answering machines," severely compromising prosodic naturalness, emotional continuity, and user immersion, particularly in long-turn dialogues. To bridge the gap between mechanical objective verification and genuine sensory empathy, we introduce Step-Audio-R1.5, marking a paradigm shift toward Reinforcement Learning from Human Feedback (RLHF) in audio reasoning. Comprehensive evaluations demonstrate that Step-Audio-R1.5 not only maintains robust analytical reasoning but profoundly transforms the interactive experience, redefining the boundaries of deeply immersive long-turn spoken dialogue.