WavAlign: Miglioramento dell'Intelligenza ed Espressività nei Modelli di Dialogo Parlato tramite Post-Addestramento Ibrido Adattivo

Abstract

I modelli di dialogo parlato end-to-end hanno attirato notevole attenzione poiché offrono un potenziale limite superiore maggiore in termini di espressività e capacità percettiva rispetto ai sistemi a cascata. Tuttavia, l'intelligenza e l'espressività degli attuali modelli open-source di dialogo parlato spesso rimangono al di sotto delle aspettative. Motivati dal successo dell'apprendimento per rinforzo (RL) online in altri domini, si potrebbe tentare di applicare direttamente l'ottimizzazione delle preferenze ai modelli di dialogo parlato, ma questo trasferimento non è banale. Analizziamo questi ostacoli dalle prospettive della modellazione della ricompensa e del campionamento dei rollout, concentrandoci su come una supervisione delle preferenze sparsa interagisce con una generazione del parlato densa sotto aggiornamenti dei parametri condivisi. Sulla base dell'analisi, proponiamo una ricetta adattiva di post-addestramento consapevole della modalità che rende pratico l'RL per il dialogo parlato: essa vincola gli aggiornamenti delle preferenze al canale semantico e migliora il comportamento acustico tramite ancoraggio esplicito, mentre regola dinamicamente la loro miscela dalle statistiche dei rollout per evitare gradienti di preferenza inaffidabili. Valutiamo il metodo su molteplici benchmark di dialogo parlato e architetture rappresentative, e osserviamo miglioramenti consistenti nella qualità semantica e nell'espressività del parlato.

English

End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.

WavAlign: Miglioramento dell'Intelligenza ed Espressività nei Modelli di Dialogo Parlato tramite Post-Addestramento Ibrido Adattivo

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

Abstract

Support