WavReward: Sprachdialogmodelle mit generalistischen Belohnungsbewertungen
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
May 14, 2025
Autoren: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao
cs.AI
Zusammenfassung
End-to-End-Sprachdialogmodelle wie GPT-4o-audio haben in jüngster Zeit im Bereich der Sprachverarbeitung erhebliche Aufmerksamkeit erregt. Die Bewertung der Konversationsleistung von Sprachdialogmodellen wurde jedoch weitgehend vernachlässigt. Dies liegt vor allem daran, dass intelligente Chatbots eine Fülle von nicht-textuellen Informationen vermitteln, die mit textbasierten Sprachmodellen wie ChatGPT nicht einfach gemessen werden können. Um diese Lücke zu schließen, schlagen wir WavReward vor, ein Belohnungsfeedbackmodell auf Basis von Audio-Sprachmodellen, das sowohl den IQ als auch den EQ von Sprachdialogsystemen mit Spracheingabe bewerten kann. Konkret: 1) Basierend auf Audio-Sprachmodellen integriert WavReward den tiefen Denkprozess und den nichtlinearen Belohnungsmechanismus für das Post-Training. Durch die Nutzung von Multi-Sample-Feedback über den Reinforcement-Learning-Algorithmus konstruieren wir einen spezialisierten Evaluator, der auf Sprachdialogmodelle zugeschnitten ist. 2) Wir stellen ChatReward-30K vor, ein Präferenzdatensatz, der zur Schulung von WavReward verwendet wird. ChatReward-30K umfasst sowohl das Verständnis als auch die Generationsaspekte von Sprachdialogmodellen. Diese Szenarien decken verschiedene Aufgaben ab, wie textbasierte Chats, neun akustische Attribute von Instruktionschats und implizite Chats. WavReward übertrifft bisherige state-of-the-art Bewertungsmodelle in mehreren Sprachdialogszenarien und erreicht eine deutliche Verbesserung gegenüber Qwen2.5-Omni in der objektiven Genauigkeit von 55,1 % auf 91,5 %. In subjektiven A/B-Tests liegt WavReward ebenfalls mit einem Vorsprung von 83 % vorn. Umfassende Ablationsstudien bestätigen die Notwendigkeit jeder Komponente von WavReward. Alle Daten und Codes werden nach der Annahme des Papiers öffentlich unter https://github.com/jishengpeng/WavReward verfügbar sein.
English
End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered
significant attention in the speech domain. However, the evaluation of spoken
dialogue models' conversational performance has largely been overlooked. This
is primarily due to the intelligent chatbots convey a wealth of non-textual
information which cannot be easily measured using text-based language models
like ChatGPT. To address this gap, we propose WavReward, a reward feedback
model based on audio language models that can evaluate both the IQ and EQ of
spoken dialogue systems with speech input. Specifically, 1) based on audio
language models, WavReward incorporates the deep reasoning process and the
nonlinear reward mechanism for post-training. By utilizing multi-sample
feedback via the reinforcement learning algorithm, we construct a specialized
evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a
preference dataset used to train WavReward. ChatReward-30K includes both
comprehension and generation aspects of spoken dialogue models. These scenarios
span various tasks, such as text-based chats, nine acoustic attributes of
instruction chats, and implicit chats. WavReward outperforms previous
state-of-the-art evaluation models across multiple spoken dialogue scenarios,
achieving a substantial improvement about Qwen2.5-Omni in objective accuracy
from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a
margin of 83%. Comprehensive ablation studies confirm the necessity of each
component of WavReward. All data and code will be publicly at
https://github.com/jishengpeng/WavReward after the paper is accepted.Summary
AI-Generated Summary