WavAlign: Verbetering van Intelligentie en Expressiviteit in Gesproken Dialoogmodellen via Adaptieve Hybride Post-training

Samenvatting

End-to-end gesproken dialoogmodellen hebben aanzienlijke aandacht gekregen omdat ze een hoger potentieel plafond bieden qua expressiviteit en waarnemingsvermogen dan gecascadeerde systemen. De intelligentie en expressiviteit van huidige open-source gesproken dialoogmodellen blijven echter vaak onder de verwachtingen. Gemotiveerd door het succes van online reinforcement learning (RL) in andere domeinen, zou men kunnen proberen om preference optimization direct toe te passen op gesproken dialoogmodellen, maar deze overdracht is niet triviaal. Wij analyseren deze obstakels vanuit de perspectieven van beloningsmodellering en rollout-steekproeven, met de focus op hoe sparse preference supervisie interageert met dense spraakgeneratie onder gedeelde-parameter updates. Gebaseerd op de analyse stellen we een modality-aware adaptief post-training recept voor dat RL praktisch maakt voor gesproken dialoog: het beperkt preference updates tot het semantische kanaal en verbetert akoestisch gedrag via expliciete verankering, terwijl het hun mengsel dynamisch reguleert op basis van rollout-statistieken om onbetrouwbare preference gradients te vermijden. We evalueren de methode op meerdere gesproken dialoogbenchmarks en representatieve architecturen, en observeren consistente verbeteringen in semantische kwaliteit en spraakexpressiviteit.

English

End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.

WavAlign: Verbetering van Intelligentie en Expressiviteit in Gesproken Dialoogmodellen via Adaptieve Hybride Post-training

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

Samenvatting

Support