WavReward: Modelos de diálogo hablado con evaluadores de recompensa generalistas

Resumen

Los modelos de diálogo hablado de extremo a extremo, como GPT-4o-audio, han captado recientemente una atención significativa en el dominio del habla. Sin embargo, la evaluación del desempeño conversacional de los modelos de diálogo hablado ha sido en gran medida pasada por alto. Esto se debe principalmente a que los chatbots inteligentes transmiten una gran cantidad de información no textual que no puede ser fácilmente medida utilizando modelos de lenguaje basados en texto como ChatGPT. Para abordar esta brecha, proponemos WavReward, un modelo de retroalimentación de recompensas basado en modelos de lenguaje de audio que puede evaluar tanto el coeficiente intelectual (IQ) como el coeficiente emocional (EQ) de los sistemas de diálogo hablado con entrada de voz. Específicamente, 1) basado en modelos de lenguaje de audio, WavReward incorpora el proceso de razonamiento profundo y el mecanismo de recompensa no lineal para el post-entrenamiento. Al utilizar retroalimentación de múltiples muestras mediante el algoritmo de aprendizaje por refuerzo, construimos un evaluador especializado adaptado a los modelos de diálogo hablado. 2) Introducimos ChatReward-30K, un conjunto de datos de preferencias utilizado para entrenar WavReward. ChatReward-30K incluye tanto aspectos de comprensión como de generación de los modelos de diálogo hablado. Estos escenarios abarcan diversas tareas, como chats basados en texto, nueve atributos acústicos de chats de instrucción y chats implícitos. WavReward supera a los modelos de evaluación de última generación anteriores en múltiples escenarios de diálogo hablado, logrando una mejora sustancial en la precisión objetiva de Qwen2.5-Omni del 55.1% al 91.5%. En pruebas subjetivas A/B, WavReward también lidera con un margen del 83%. Estudios de ablación exhaustivos confirman la necesidad de cada componente de WavReward. Todos los datos y el código estarán disponibles públicamente en https://github.com/jishengpeng/WavReward después de que el artículo sea aceptado.

English

End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered significant attention in the speech domain. However, the evaluation of spoken dialogue models' conversational performance has largely been overlooked. This is primarily due to the intelligent chatbots convey a wealth of non-textual information which cannot be easily measured using text-based language models like ChatGPT. To address this gap, we propose WavReward, a reward feedback model based on audio language models that can evaluate both the IQ and EQ of spoken dialogue systems with speech input. Specifically, 1) based on audio language models, WavReward incorporates the deep reasoning process and the nonlinear reward mechanism for post-training. By utilizing multi-sample feedback via the reinforcement learning algorithm, we construct a specialized evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a preference dataset used to train WavReward. ChatReward-30K includes both comprehension and generation aspects of spoken dialogue models. These scenarios span various tasks, such as text-based chats, nine acoustic attributes of instruction chats, and implicit chats. WavReward outperforms previous state-of-the-art evaluation models across multiple spoken dialogue scenarios, achieving a substantial improvement about Qwen2.5-Omni in objective accuracy from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a margin of 83%. Comprehensive ablation studies confirm the necessity of each component of WavReward. All data and code will be publicly at https://github.com/jishengpeng/WavReward after the paper is accepted.

WavReward: Modelos de diálogo hablado con evaluadores de recompensa generalistas

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

Resumen

Support