Informe Técnico de Step-Audio-R1.5
Step-Audio-R1.5 Technical Report
April 28, 2026
Autores: Yuxin Zhang, Xiangyu Tony Zhang, Daijiao Liu, Fei Tian, Yayue Deng, Jun Chen, Qingjian Lin, Haoyang Zhang, Yuxin Li, Jinglan Gong, Yechang Huang, Liang Zhao, Chengyuan Yao, Hexin Liu, Eng Siong Chng, Xuerui Yang, Gang Yu, Xiangyu Zhang, Daxin Jiang
cs.AI
Resumen
Los recientes avances en los grandes modelos de lenguaje de audio han extendido el razonamiento en cadena de pensamiento (CoT) al dominio auditivo, permitiendo a los modelos abordar tareas acústicas y orales cada vez más complejas. Para generar y sostener estas cadenas de razonamiento extendidas, el paradigma predominante —impulsado por el éxito de los modelos de razonamiento basados en texto— depende abrumadoramente del Aprendizaje por Refuerzo con Recompensas Verificadas (RLVR). Sin embargo, a medida que los modelos se optimizan estrictamente para destilar contextos auditivos ricos y continuos en etiquetas de texto aisladas y verificables, surge una pregunta fundamental: ¿estamos fomentando una verdadera inteligencia auditiva o simplemente reduciendo un medio sensorial continuo a un rompecabezas discreto? Identificamos esto como la "trampa de la recompensa verificable". Si bien el RLVR produce puntuaciones notables en benchmarks objetivos estandarizados, degrada sistemáticamente la sensación conversacional del mundo real en los modelos de audio. Al priorizar la corrección aislada sobre el matiz acústico, el RLVR reduce las interacciones dinámicas a "máquinas de respuesta" mecánicas, comprometiendo gravemente la naturalidad prosódica, la continuidad emocional y la inmersión del usuario, particularmente en diálogos de turnos largos. Para cerrar la brecha entre la verificación objetiva mecánica y la empatía sensorial genuina, presentamos Step-Audio-R1.5, que marca un cambio de paradigma hacia el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) en el razonamiento auditivo. Evaluaciones exhaustivas demuestran que Step-Audio-R1.5 no solo mantiene un razonamiento analítico sólido, sino que transforma profundamente la experiencia interactiva, redefiniendo los límites del diálogo hablado de turnos largos profundamente inmersivo.
English
Recent advancements in large audio language models have extended Chain-of-Thought (CoT) reasoning into the auditory domain, enabling models to tackle increasingly complex acoustic and spoken tasks. To elicit and sustain these extended reasoning chains, the prevailing paradigm -- driven by the success of text-based reasoning models -- overwhelmingly relies on Reinforcement Learning with Verified Rewards (RLVR). However, as models are strictly optimized to distill rich, continuous auditory contexts into isolated, verifiable text labels, a fundamental question arises: are we fostering true audio intelligence, or merely reducing a continuous sensory medium into a discrete puzzle? We identify this as the "verifiable reward trap." While RLVR yields remarkable scores on standardized objective benchmarks, it systematically degrades the real-world conversational feel of audio models. By prioritizing isolated correctness over acoustic nuance, RLVR reduces dynamic interactions to mechanical "answering machines," severely compromising prosodic naturalness, emotional continuity, and user immersion, particularly in long-turn dialogues. To bridge the gap between mechanical objective verification and genuine sensory empathy, we introduce Step-Audio-R1.5, marking a paradigm shift toward Reinforcement Learning from Human Feedback (RLHF) in audio reasoning. Comprehensive evaluations demonstrate that Step-Audio-R1.5 not only maintains robust analytical reasoning but profoundly transforms the interactive experience, redefining the boundaries of deeply immersive long-turn spoken dialogue.