WavAlign: Повышение интеллектуальности и выразительности моделей разговорной речи посредством адаптивного гибридного пост-обучения
WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training
April 16, 2026
Авторы: Yifu Chen, Shengpeng Ji, Qian Chen, Tianle Liang, Yangzhuo Li, Ziqing Wang, Wen Wang, Jingyu Lu, Haoxiao Wang, Xueyi Pu, Fan Zhuo, Zhou Zhao
cs.AI
Аннотация
Модели сквозного речевого диалога привлекают значительное внимание, поскольку обладают более высоким потенциалом выразительности и восприятия по сравнению с каскадными системами. Однако интеллект и выразительность современных открытых моделей речевого диалога часто остаются ниже ожиданий. Вдохновленные успехами онлайн-обучения с подкреплением (ОР) в других областях, исследователи могут попытаться напрямую применить оптимизацию по предпочтениям к речевым диалоговым моделям, однако такой перенос нетривиален. Мы анализируем эти препятствия с точек зрения моделирования вознаграждения и сэмплирования траекторий, уделяя особоещение взаимодействию разреженного контроля предпочтений с плотным речевым генерацией при обновлении общих параметров. На основе анализа мы предлагаем модально-адаптивный рецепт пост-обучения, который делает ОР практичным для речевого диалога: он ограничивает обновления предпочтений семантическим каналом и улучшает акустическое поведение через явное якорение, динамически регулируя их смешение на основе статистики траекторий для избежания ненадежных градиентов предпочтений. Мы оцениваем метод на нескольких тестовых наборах для речевого диалога и репрезентативных архитектурах, наблюдая последовательное улучшение семантического качества и речевой выразительности.
English
End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.