WavReward : Modèles de dialogue parlé avec évaluateurs de récompense généralistes
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
May 14, 2025
Auteurs: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao
cs.AI
Résumé
Les modèles de dialogue vocal de bout en bout tels que GPT-4o-audio ont récemment suscité une attention significative dans le domaine de la parole. Cependant, l'évaluation des performances conversationnelles des modèles de dialogue vocal a été largement négligée. Cela est principalement dû au fait que les chatbots intelligents véhiculent une richesse d'informations non textuelles qui ne peuvent pas être facilement mesurées à l'aide de modèles de langage basés sur le texte comme ChatGPT. Pour combler cette lacune, nous proposons WavReward, un modèle de rétroaction de récompense basé sur des modèles de langage audio capables d'évaluer à la fois le QI et le QE des systèmes de dialogue vocal avec entrée vocale. Plus précisément, 1) basé sur des modèles de langage audio, WavReward intègre un processus de raisonnement profond et un mécanisme de récompense non linéaire pour l'après-entraînement. En utilisant une rétroaction multi-échantillons via l'algorithme d'apprentissage par renforcement, nous construisons un évaluateur spécialement adapté aux modèles de dialogue vocal. 2) Nous introduisons ChatReward-30K, un ensemble de données de préférences utilisé pour entraîner WavReward. ChatReward-30K inclut à la fois les aspects de compréhension et de génération des modèles de dialogue vocal. Ces scénarios couvrent diverses tâches, telles que les discussions basées sur le texte, neuf attributs acoustiques des discussions d'instruction et les discussions implicites. WavReward surpasse les modèles d'évaluation précédents de pointe dans plusieurs scénarios de dialogue vocal, obtenant une amélioration substantielle par rapport à Qwen2.5-Omni en précision objective, passant de 55,1 % à 91,5 %. Dans les tests subjectifs A/B, WavReward mène également avec une marge de 83 %. Des études d'ablation complètes confirment la nécessité de chaque composant de WavReward. Toutes les données et le code seront publics sur https://github.com/jishengpeng/WavReward après l'acceptation de l'article.
English
End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered
significant attention in the speech domain. However, the evaluation of spoken
dialogue models' conversational performance has largely been overlooked. This
is primarily due to the intelligent chatbots convey a wealth of non-textual
information which cannot be easily measured using text-based language models
like ChatGPT. To address this gap, we propose WavReward, a reward feedback
model based on audio language models that can evaluate both the IQ and EQ of
spoken dialogue systems with speech input. Specifically, 1) based on audio
language models, WavReward incorporates the deep reasoning process and the
nonlinear reward mechanism for post-training. By utilizing multi-sample
feedback via the reinforcement learning algorithm, we construct a specialized
evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a
preference dataset used to train WavReward. ChatReward-30K includes both
comprehension and generation aspects of spoken dialogue models. These scenarios
span various tasks, such as text-based chats, nine acoustic attributes of
instruction chats, and implicit chats. WavReward outperforms previous
state-of-the-art evaluation models across multiple spoken dialogue scenarios,
achieving a substantial improvement about Qwen2.5-Omni in objective accuracy
from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a
margin of 83%. Comprehensive ablation studies confirm the necessity of each
component of WavReward. All data and code will be publicly at
https://github.com/jishengpeng/WavReward after the paper is accepted.Summary
AI-Generated Summary