WavAlign: Mejorando la Inteligencia y Expresividad en Modelos de Diálogo Hablado mediante Post-Entrenamiento Híbrido Adaptativo
WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training
April 16, 2026
Autores: Yifu Chen, Shengpeng Ji, Qian Chen, Tianle Liang, Yangzhuo Li, Ziqing Wang, Wen Wang, Jingyu Lu, Haoxiao Wang, Xueyi Pu, Fan Zhuo, Zhou Zhao
cs.AI
Resumen
Los modelos de diálogo hablado de extremo a extremo han atraído una atención significativa porque ofrecen un potencial máximo superior en expresividad y capacidad perceptiva en comparación con los sistemas en cascada. Sin embargo, la inteligencia y expresividad de los modelos de diálogo hablado de código abierto actuales a menudo permanecen por debajo de las expectativas. Motivados por el éxito del aprendizaje por refuerzo (RL) en línea en otros dominios, se podría intentar aplicar directamente la optimización de preferencias a los modelos de diálogo hablado, aunque esta transferencia no es trivial. Analizamos estos obstáculos desde las perspectivas del modelado de recompensas y el muestreo de *rollouts*, centrándonos en cómo la supervisión de preferencias dispersa interactúa con la generación densa de habla bajo actualizaciones de parámetros compartidos. Basándonos en el análisis, proponemos una receta de post-entrenamiento adaptativa y consciente de la modalidad que hace práctico el RL para el diálogo hablado: restringe las actualizaciones de preferencias al canal semántico y mejora el comportamiento acústico mediante anclaje explícito, mientras regula dinámicamente su mezcla a partir de estadísticas de *rollout* para evitar gradientes de preferencia poco fiables. Evaluamos el método en múltiples benchmarks de diálogo hablado y arquitecturas representativas, y observamos mejoras consistentes en la calidad semántica y la expresividad del habla.
English
End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.