WavAlign: Steigerung von Intelligenz und Ausdrucksstärke in gesprochenen Dialogsystemen durch adaptive hybride Nachbearbeitung

Zusammenfassung

End-to-End-Sprachdialogmodelle haben aufgrund ihres höheren Potenzials in Ausdrucksfähigkeit und Wahrnehmungsvermögen im Vergleich zu kaskadierten Systemen erheblich an Aufmerksamkeit gewonnen. Die Intelligenz und Ausdrucksstärke aktueller Open-Source-Sprachdialogmodelle bleibt jedoch häufig hinter den Erwartungen zurück. Angeregt durch die Erfolge von Online Reinforcement Learning (RL) in anderen Domänen, könnte man versuchen, Präferenzoptimierung direkt auf Sprachdialogmodelle anzuwenden, doch dieser Transfer ist nicht trivial. Wir analysieren diese Hindernisse aus den Perspektiven des Reward-Modellings und des Rollout-Samplings, mit besonderem Fokus darauf, wie spärliche Präferenzüberwachung mit dichtersprachlicher Generierung unter gemeinsamen Parameteraktualisierungen interagiert. Basierend auf der Analyse schlagen wir ein modalitätsbewusstes, adaptives Nachtrainierungsverfahren vor, das RL für Sprachdialoge praktikabel macht: Es beschränkt Präferenzaktualisierungen auf den semantischen Kanal und verbessert das akustische Verhalten durch explizites Anchoring, während es deren Mischung dynamisch anhand von Rollout-Statistiken reguliert, um unzuverlässige Präferenzgradienten zu vermeiden. Wir evaluieren die Methode anhand mehrerer Sprachdialog-Benchmarks und repräsentativer Architekturen und beobachten konsistente Verbesserungen der semantischen Qualität und Sprachausdruckskraft.

English

End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.

WavAlign: Steigerung von Intelligenz und Ausdrucksstärke in gesprochenen Dialogsystemen durch adaptive hybride Nachbearbeitung

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

Zusammenfassung

Support