WavAlign: 適応的ハイブリッド事後学習による音声対話モデルの知性と表現力の向上
WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training
April 16, 2026
著者: Yifu Chen, Shengpeng Ji, Qian Chen, Tianle Liang, Yangzhuo Li, Ziqing Wang, Wen Wang, Jingyu Lu, Haoxiao Wang, Xueyi Pu, Fan Zhuo, Zhou Zhao
cs.AI
要旨
エンドツーエンド音声対話モデルは、カスケード型システムよりも表現力と知覚能力において高い可能性を秘めていることから、大きな注目を集めている。しかし、現在のオープンソース音声対話モデルの知性と表現力は、往々にして期待値を下回るのが現状である。他の領域におけるオンライン強化学習(RL)の成功に触発され、嗜好最適化を音声対話モデルに直接適用しようとする試みも考えられるが、この転移は自明ではない。本稿では、報酬モデリングとロールアウトサンプリングの観点からこれらの障壁を分析し、特に、疎な嗜好教師信号が密な音声生成と共有パラメータ更新の下でどのように相互作用するかに焦点を当てる。この分析に基づき、我々は音声対話に対してRLを実用的にするためのモダリティを考慮した適応的ポストトレーニング手法を提案する。これは、嗜好更新を意味チャネルに制約し、明示的なアンカリングを通じて音響的振る舞いを改善するとともに、ロールアウト統計量からそれらの混合を動的に調整することで、信頼性の低い嗜好勾配を回避するものである。本手法を複数の音声対話ベンチマークおよび代表的なアーキテクチャで評価した結果、意味的品質と音声の表現力において一貫した改善が観察された。
English
End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.