WavAlign: Aprimorando a Inteligência e Expressividade em Modelos de Diálogo Falado via Pós-Treinamento Híbrido Adaptativo

Resumo

Os modelos de diálogo falado de ponta a ponta têm atraído atenção significativa porque oferecem um potencial máximo superior em expressividade e capacidade perceptiva em comparação com sistemas em cascata. No entanto, a inteligência e a expressividade dos modelos de diálogo falado de código aberto atuais frequentemente permanecem abaixo das expectativas. Motivados pelo sucesso do aprendizado por reforço (RL) online em outros domínios, poderia-se tentar aplicar diretamente a otimização de preferências a modelos de diálogo falado, mas essa transferência não é trivial. Analisamos esses obstáculos sob as perspectivas da modelagem de recompensa e da amostragem de *rollout*, focando em como a supervisão esparsa de preferências interage com a geração densa de fala sob atualizações de parâmetros compartilhados. Com base na análise, propomos uma receita de pós-treinamento adaptativa e consciente da modalidade que torna o RL prático para diálogo falado: ela restringe as atualizações de preferência ao canal semântico e melhora o comportamento acústico por meio de ancoragem explícita, enquanto regula dinamicamente sua mistura a partir de estatísticas de *rollout* para evitar gradientes de preferência não confiáveis. Avaliamos o método em vários benchmarks de diálogo falado e arquiteturas representativas, e observamos melhorias consistentes na qualidade semântica e na expressividade da fala.

English

End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.

WavAlign: Aprimorando a Inteligência e Expressividade em Modelos de Diálogo Falado via Pós-Treinamento Híbrido Adaptativo

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

Resumo

Support