WavReward: Gesproken Dialoogmodellen Met Algemene Beloningsbeoordelaars
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
May 14, 2025
Auteurs: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao
cs.AI
Samenvatting
End-to-end gesproken dialoogmodellen zoals GPT-4o-audio hebben recentelijk aanzienlijke aandacht gekregen in het spraakdomein. Echter is de evaluatie van de gespreksprestaties van gesproken dialoogmodellen grotendeels over het hoofd gezien. Dit komt voornamelijk doordat intelligente chatbots een schat aan niet-tekstuele informatie overbrengen die niet eenvoudig kan worden gemeten met op tekst gebaseerde taalmodelen zoals ChatGPT. Om dit gat te dichten, stellen we WavReward voor, een beloningsfeedbackmodel gebaseerd op audiotalmodellen dat zowel het IQ als het EQ van gesproken dialoogsystemen met spraakinvoer kan evalueren. Specifiek: 1) gebaseerd op audiotalmodellen, integreert WavReward het diepe redeneerproces en het niet-lineaire beloningsmechanisme voor post-training. Door gebruik te maken van multi-sample feedback via het reinforcement learning-algoritme, construeren we een gespecialiseerde evaluator die is afgestemd op gesproken dialoogmodellen. 2) We introduceren ChatReward-30K, een voorkeursdataset die wordt gebruikt om WavReward te trainen. ChatReward-30K omvat zowel het begrip als het generatieaspect van gesproken dialoogmodellen. Deze scenario's beslaan verschillende taken, zoals op tekst gebaseerde chats, negen akoestische attributen van instructiechats en impliciete chats. WavReward overtreft eerdere state-of-the-art evaluatiemodellen in meerdere gesproken dialoogscenario's, met een aanzienlijke verbetering van Qwen2.5-Omni in objectieve nauwkeurigheid van 55,1% naar 91,5%. In subjectieve A/B-testing leidt WavReward ook met een marge van 83%. Uitgebreide ablatiestudies bevestigen de noodzaak van elk onderdeel van WavReward. Alle data en code zullen openbaar beschikbaar zijn op https://github.com/jishengpeng/WavReward nadat het paper is geaccepteerd.
English
End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered
significant attention in the speech domain. However, the evaluation of spoken
dialogue models' conversational performance has largely been overlooked. This
is primarily due to the intelligent chatbots convey a wealth of non-textual
information which cannot be easily measured using text-based language models
like ChatGPT. To address this gap, we propose WavReward, a reward feedback
model based on audio language models that can evaluate both the IQ and EQ of
spoken dialogue systems with speech input. Specifically, 1) based on audio
language models, WavReward incorporates the deep reasoning process and the
nonlinear reward mechanism for post-training. By utilizing multi-sample
feedback via the reinforcement learning algorithm, we construct a specialized
evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a
preference dataset used to train WavReward. ChatReward-30K includes both
comprehension and generation aspects of spoken dialogue models. These scenarios
span various tasks, such as text-based chats, nine acoustic attributes of
instruction chats, and implicit chats. WavReward outperforms previous
state-of-the-art evaluation models across multiple spoken dialogue scenarios,
achieving a substantial improvement about Qwen2.5-Omni in objective accuracy
from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a
margin of 83%. Comprehensive ablation studies confirm the necessity of each
component of WavReward. All data and code will be publicly at
https://github.com/jishengpeng/WavReward after the paper is accepted.Summary
AI-Generated Summary