WavReward: Modelli di Dialogo Parlato con Valutatori di Ricompensa Generalisti
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
May 14, 2025
Autori: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao
cs.AI
Abstract
I modelli di dialogo parlato end-to-end come GPT-4o-audio hanno recentemente attirato un'attenzione significativa nel dominio del parlato. Tuttavia, la valutazione delle prestazioni conversazionali dei modelli di dialogo parlato è stata in gran parte trascurata. Ciò è principalmente dovuto al fatto che i chatbot intelligenti trasmettono una ricchezza di informazioni non testuali che non possono essere facilmente misurate utilizzando modelli linguistici basati su testo come ChatGPT. Per colmare questa lacuna, proponiamo WavReward, un modello di feedback di ricompensa basato su modelli linguistici audio in grado di valutare sia il QI che l'EQ dei sistemi di dialogo parlato con input vocale. Nello specifico, 1) basandosi su modelli linguistici audio, WavReward incorpora il processo di ragionamento profondo e il meccanismo di ricompensa non lineare per il post-addestramento. Utilizzando il feedback multi-campione tramite l'algoritmo di apprendimento per rinforzo, costruiamo un valutatore specializzato per i modelli di dialogo parlato. 2) Introduciamo ChatReward-30K, un dataset di preferenze utilizzato per addestrare WavReward. ChatReward-30K include sia gli aspetti di comprensione che di generazione dei modelli di dialogo parlato. Questi scenari coprono vari compiti, come chat basate su testo, nove attributi acustici delle chat di istruzione e chat implicite. WavReward supera i precedenti modelli di valutazione all'avanguardia in molteplici scenari di dialogo parlato, ottenendo un miglioramento sostanziale rispetto a Qwen2.5-Omni in termini di accuratezza oggettiva dal 55,1% al 91,5%. Nei test A/B soggettivi, WavReward si distingue anche con un margine dell'83%. Studi di ablazione completi confermano la necessità di ciascun componente di WavReward. Tutti i dati e il codice saranno pubblicamente disponibili su https://github.com/jishengpeng/WavReward dopo l'accettazione del documento.
English
End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered
significant attention in the speech domain. However, the evaluation of spoken
dialogue models' conversational performance has largely been overlooked. This
is primarily due to the intelligent chatbots convey a wealth of non-textual
information which cannot be easily measured using text-based language models
like ChatGPT. To address this gap, we propose WavReward, a reward feedback
model based on audio language models that can evaluate both the IQ and EQ of
spoken dialogue systems with speech input. Specifically, 1) based on audio
language models, WavReward incorporates the deep reasoning process and the
nonlinear reward mechanism for post-training. By utilizing multi-sample
feedback via the reinforcement learning algorithm, we construct a specialized
evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a
preference dataset used to train WavReward. ChatReward-30K includes both
comprehension and generation aspects of spoken dialogue models. These scenarios
span various tasks, such as text-based chats, nine acoustic attributes of
instruction chats, and implicit chats. WavReward outperforms previous
state-of-the-art evaluation models across multiple spoken dialogue scenarios,
achieving a substantial improvement about Qwen2.5-Omni in objective accuracy
from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a
margin of 83%. Comprehensive ablation studies confirm the necessity of each
component of WavReward. All data and code will be publicly at
https://github.com/jishengpeng/WavReward after the paper is accepted.