WavAlign: 적응형 하이브리드 사후 학습을 통한 구어 대화 모델의 지능성과 표현력 향상
WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training
April 16, 2026
저자: Yifu Chen, Shengpeng Ji, Qian Chen, Tianle Liang, Yangzhuo Li, Ziqing Wang, Wen Wang, Jingyu Lu, Haoxiao Wang, Xueyi Pu, Fan Zhuo, Zhou Zhao
cs.AI
초록
종단 간 음성 대화 모델은 캐스케이드 시스템보다 표현력과 인식 능력에서 더 높은 잠재적 성능 한계를 제공하기 때문에 상당한 관심을 받아왔다. 그러나 현재 오픈소스 음성 대화 모델의 지능성과 표현력은 종종 기대에 미치지 못하는 수준에 머물러 있다. 온라인 강화학습이 다른 영역에서 거둔 성공에 고무되어 선호도 최적화를 음성 대화 모델에 직접 적용하려는 시도를 할 수 있으나, 이러한 전이는 간단하지 않다. 본 논문에서는 희소한 선호도 감독이 공유 매개변수 업데이트 하에서 조밀한 음성 생성을 어떻게 상호작용하는지에 초점을 맞춰, 보상 모델링과 롤아웃 샘플링 관점에서 이러한 장애요인을 분석한다. 이러한 분석을 바탕으로 강화학습을 음성 대화에 실용적으로 만드는 양식 인식 적응 사후 학습 방법을 제안한다. 이 방법은 선호도 업데이트를 의미 채널로 제한하며 명시적 고정을 통해 음향적 행동을 개선하는 한편, 롤아웃 통계를 통해 이들의 혼합을 동적으로 조절하여 신뢰할 수 없는 선호도 기울기를 방지한다. 여러 음성 대화 벤치마크와 대표적 아키텍처에서 본 방법을 평가한 결과, 의미적 품질과 음성 표현력에서 일관된 개선을 관찰하였다.
English
End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.