WavAlign : Amélioration de l'intelligence et de l'expressivité des modèles de dialogue oral via un post-entraînement hybride adaptatif
WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training
April 16, 2026
Auteurs: Yifu Chen, Shengpeng Ji, Qian Chen, Tianle Liang, Yangzhuo Li, Ziqing Wang, Wen Wang, Jingyu Lu, Haoxiao Wang, Xueyi Pu, Fan Zhuo, Zhou Zhao
cs.AI
Résumé
Les modèles de dialogue oral de bout en bout ont attiré une attention considérable car ils offrent un plafond de potentiel plus élevé en termes d'expressivité et de capacité perceptive que les systèmes en cascade. Cependant, l'intelligence et l'expressivité des modèles de dialogue oral open-source actuels restent souvent en deçà des attentes. Motivé par le succès de l'apprentissage par renforcement (RL) en ligne dans d'autres domaines, on pourrait tenter d'appliquer directement l'optimisation des préférences aux modèles de dialogue oral, mais ce transfert n'est pas trivial. Nous analysons ces obstacles sous les angles de la modélisation des récompenses et de l'échantillonnage des épisodes, en nous concentrant sur la manière dont une supervision clairsemée des préférences interagit avec la génération dense de parole lors de mises à jour de paramètres partagés. Sur la base de cette analyse, nous proposons une recette de post-entraînement adaptatif et consciente des modalités qui rend le RL praticable pour le dialogue oral : elle contraint les mises à jour des préférences au canal sémantique et améliore le comportement acoustique via un ancrage explicite, tout en régulant dynamiquement leur mélange à partir des statistiques des épisodes pour éviter des gradients de préférence non fiables. Nous évaluons la méthode sur plusieurs benchmarks de dialogue oral et des architectures représentatives, et observons des améliorations constantes de la qualité sémantique et de l'expressivité de la parole.
English
End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.