WavReward: Gesproken Dialoogmodellen Met Algemene Beloningsbeoordelaars

Samenvatting

End-to-end gesproken dialoogmodellen zoals GPT-4o-audio hebben recentelijk aanzienlijke aandacht gekregen in het spraakdomein. Echter is de evaluatie van de gespreksprestaties van gesproken dialoogmodellen grotendeels over het hoofd gezien. Dit komt voornamelijk doordat intelligente chatbots een schat aan niet-tekstuele informatie overbrengen die niet eenvoudig kan worden gemeten met op tekst gebaseerde taalmodelen zoals ChatGPT. Om dit gat te dichten, stellen we WavReward voor, een beloningsfeedbackmodel gebaseerd op audiotalmodellen dat zowel het IQ als het EQ van gesproken dialoogsystemen met spraakinvoer kan evalueren. Specifiek: 1) gebaseerd op audiotalmodellen, integreert WavReward het diepe redeneerproces en het niet-lineaire beloningsmechanisme voor post-training. Door gebruik te maken van multi-sample feedback via het reinforcement learning-algoritme, construeren we een gespecialiseerde evaluator die is afgestemd op gesproken dialoogmodellen. 2) We introduceren ChatReward-30K, een voorkeursdataset die wordt gebruikt om WavReward te trainen. ChatReward-30K omvat zowel het begrip als het generatieaspect van gesproken dialoogmodellen. Deze scenario's beslaan verschillende taken, zoals op tekst gebaseerde chats, negen akoestische attributen van instructiechats en impliciete chats. WavReward overtreft eerdere state-of-the-art evaluatiemodellen in meerdere gesproken dialoogscenario's, met een aanzienlijke verbetering van Qwen2.5-Omni in objectieve nauwkeurigheid van 55,1% naar 91,5%. In subjectieve A/B-testing leidt WavReward ook met een marge van 83%. Uitgebreide ablatiestudies bevestigen de noodzaak van elk onderdeel van WavReward. Alle data en code zullen openbaar beschikbaar zijn op https://github.com/jishengpeng/WavReward nadat het paper is geaccepteerd.

English

End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered significant attention in the speech domain. However, the evaluation of spoken dialogue models' conversational performance has largely been overlooked. This is primarily due to the intelligent chatbots convey a wealth of non-textual information which cannot be easily measured using text-based language models like ChatGPT. To address this gap, we propose WavReward, a reward feedback model based on audio language models that can evaluate both the IQ and EQ of spoken dialogue systems with speech input. Specifically, 1) based on audio language models, WavReward incorporates the deep reasoning process and the nonlinear reward mechanism for post-training. By utilizing multi-sample feedback via the reinforcement learning algorithm, we construct a specialized evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a preference dataset used to train WavReward. ChatReward-30K includes both comprehension and generation aspects of spoken dialogue models. These scenarios span various tasks, such as text-based chats, nine acoustic attributes of instruction chats, and implicit chats. WavReward outperforms previous state-of-the-art evaluation models across multiple spoken dialogue scenarios, achieving a substantial improvement about Qwen2.5-Omni in objective accuracy from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a margin of 83%. Comprehensive ablation studies confirm the necessity of each component of WavReward. All data and code will be publicly at https://github.com/jishengpeng/WavReward after the paper is accepted.

WavReward: Gesproken Dialoogmodellen Met Algemene Beloningsbeoordelaars

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

Samenvatting

Summary

Support

Support