Rapporto Tecnico Step-Audio-R1.5

Abstract

I recenti progressi nei grandi modelli linguistici audio hanno esteso il ragionamento a catena del pensiero (CoT) nel dominio uditivo, consentendo ai modelli di affrontare compiti acustici e vocali sempre più complessi. Per stimolare e sostenere queste catene di ragionamento estese, il paradigma prevalente – guidato dal successo dei modelli di ragionamento basati sul testo – fa ampio affidamento sul Reinforcement Learning con Ricompense Verificate (RLVR). Tuttavia, poiché i modelli sono ottimizzati rigorosamente per distillare contesti uditivi ricchi e continui in etichette testuali isolate e verificabili, sorge una domanda fondamentale: stiamo favorendo una vera intelligenza audio, o stiamo semplicemente riducendo un mezzo sensoriale continuo in un puzzle discreto? Identifichiamo questo fenomeno come la "trappola della ricompensa verificabile". Sebbene l'RLVR produca punteggi notevoli su benchmark oggettivi standardizzati, esso degrada sistematicamente la sensazione conversazionale nel mondo reale dei modelli audio. Privilegiando la correttezza isolata rispetto alla sfumatura acustica, l'RLVR riduce le interazioni dinamiche a "macchine risponditori" meccaniche, compromettendo gravemente la naturalezza prosodica, la continuità emotiva e l'immersione dell'utente, specialmente nei dialoghi con molti turni. Per colmare il divario tra la verifica oggettiva meccanica e la genuina empatia sensoriale, introduciamo Step-Audio-R1.5, che segna un cambio di paradigma verso il Reinforcement Learning dal Feedback Umano (RLHF) nel ragionamento audio. Valutazioni complete dimostrano che Step-Audio-R1.5 non solo mantiene un robusto ragionamento analitico, ma trasforma profondamente l'esperienza interattiva, ridefinendo i confini del dialogo parlato profondamente immersivo e con molti turni.

English

Recent advancements in large audio language models have extended Chain-of-Thought (CoT) reasoning into the auditory domain, enabling models to tackle increasingly complex acoustic and spoken tasks. To elicit and sustain these extended reasoning chains, the prevailing paradigm -- driven by the success of text-based reasoning models -- overwhelmingly relies on Reinforcement Learning with Verified Rewards (RLVR). However, as models are strictly optimized to distill rich, continuous auditory contexts into isolated, verifiable text labels, a fundamental question arises: are we fostering true audio intelligence, or merely reducing a continuous sensory medium into a discrete puzzle? We identify this as the "verifiable reward trap." While RLVR yields remarkable scores on standardized objective benchmarks, it systematically degrades the real-world conversational feel of audio models. By prioritizing isolated correctness over acoustic nuance, RLVR reduces dynamic interactions to mechanical "answering machines," severely compromising prosodic naturalness, emotional continuity, and user immersion, particularly in long-turn dialogues. To bridge the gap between mechanical objective verification and genuine sensory empathy, we introduce Step-Audio-R1.5, marking a paradigm shift toward Reinforcement Learning from Human Feedback (RLHF) in audio reasoning. Comprehensive evaluations demonstrate that Step-Audio-R1.5 not only maintains robust analytical reasoning but profoundly transforms the interactive experience, redefining the boundaries of deeply immersive long-turn spoken dialogue.

Rapporto Tecnico Step-Audio-R1.5

Step-Audio-R1.5 Technical Report

Abstract

Support