WavReward: Modelos de diálogo hablado con evaluadores de recompensa generalistas
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
May 14, 2025
Autores: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao
cs.AI
Resumen
Los modelos de diálogo hablado de extremo a extremo, como GPT-4o-audio, han captado recientemente una atención significativa en el dominio del habla. Sin embargo, la evaluación del desempeño conversacional de los modelos de diálogo hablado ha sido en gran medida pasada por alto. Esto se debe principalmente a que los chatbots inteligentes transmiten una gran cantidad de información no textual que no puede ser fácilmente medida utilizando modelos de lenguaje basados en texto como ChatGPT. Para abordar esta brecha, proponemos WavReward, un modelo de retroalimentación de recompensas basado en modelos de lenguaje de audio que puede evaluar tanto el coeficiente intelectual (IQ) como el coeficiente emocional (EQ) de los sistemas de diálogo hablado con entrada de voz. Específicamente, 1) basado en modelos de lenguaje de audio, WavReward incorpora el proceso de razonamiento profundo y el mecanismo de recompensa no lineal para el post-entrenamiento. Al utilizar retroalimentación de múltiples muestras mediante el algoritmo de aprendizaje por refuerzo, construimos un evaluador especializado adaptado a los modelos de diálogo hablado. 2) Introducimos ChatReward-30K, un conjunto de datos de preferencias utilizado para entrenar WavReward. ChatReward-30K incluye tanto aspectos de comprensión como de generación de los modelos de diálogo hablado. Estos escenarios abarcan diversas tareas, como chats basados en texto, nueve atributos acústicos de chats de instrucción y chats implícitos. WavReward supera a los modelos de evaluación de última generación anteriores en múltiples escenarios de diálogo hablado, logrando una mejora sustancial en la precisión objetiva de Qwen2.5-Omni del 55.1% al 91.5%. En pruebas subjetivas A/B, WavReward también lidera con un margen del 83%. Estudios de ablación exhaustivos confirman la necesidad de cada componente de WavReward. Todos los datos y el código estarán disponibles públicamente en https://github.com/jishengpeng/WavReward después de que el artículo sea aceptado.
English
End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered
significant attention in the speech domain. However, the evaluation of spoken
dialogue models' conversational performance has largely been overlooked. This
is primarily due to the intelligent chatbots convey a wealth of non-textual
information which cannot be easily measured using text-based language models
like ChatGPT. To address this gap, we propose WavReward, a reward feedback
model based on audio language models that can evaluate both the IQ and EQ of
spoken dialogue systems with speech input. Specifically, 1) based on audio
language models, WavReward incorporates the deep reasoning process and the
nonlinear reward mechanism for post-training. By utilizing multi-sample
feedback via the reinforcement learning algorithm, we construct a specialized
evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a
preference dataset used to train WavReward. ChatReward-30K includes both
comprehension and generation aspects of spoken dialogue models. These scenarios
span various tasks, such as text-based chats, nine acoustic attributes of
instruction chats, and implicit chats. WavReward outperforms previous
state-of-the-art evaluation models across multiple spoken dialogue scenarios,
achieving a substantial improvement about Qwen2.5-Omni in objective accuracy
from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a
margin of 83%. Comprehensive ablation studies confirm the necessity of each
component of WavReward. All data and code will be publicly at
https://github.com/jishengpeng/WavReward after the paper is accepted.Summary
AI-Generated Summary