ChatPaper.aiChatPaper

WavReward: Modelos de Diálogo Falado com Avaliadores de Recompensa Generalistas

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

May 14, 2025
Autores: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao
cs.AI

Resumo

Modelos de diálogo falado de ponta a ponta, como o GPT-4o-audio, recentemente têm atraído atenção significativa no domínio da fala. No entanto, a avaliação do desempenho conversacional desses modelos de diálogo falado tem sido amplamente negligenciada. Isso ocorre principalmente porque os chatbots inteligentes transmitem uma riqueza de informações não textuais que não podem ser facilmente medidas usando modelos de linguagem baseados em texto, como o ChatGPT. Para abordar essa lacuna, propomos o WavReward, um modelo de feedback de recompensa baseado em modelos de linguagem de áudio que pode avaliar tanto o QI quanto o QE de sistemas de diálogo falado com entrada de fala. Especificamente, 1) com base em modelos de linguagem de áudio, o WavReward incorpora o processo de raciocínio profundo e o mecanismo de recompensa não linear para pós-treinamento. Ao utilizar feedback de múltiplas amostras por meio do algoritmo de aprendizado por reforço, construímos um avaliador especializado adaptado a modelos de diálogo falado. 2) Introduzimos o ChatReward-30K, um conjunto de dados de preferência usado para treinar o WavReward. O ChatReward-30K inclui tanto aspectos de compreensão quanto de geração de modelos de diálogo falado. Esses cenários abrangem várias tarefas, como chats baseados em texto, nove atributos acústicos de chats de instrução e chats implícitos. O WavReward supera os modelos de avaliação state-of-the-art anteriores em vários cenários de diálogo falado, alcançando uma melhoria substancial em relação ao Qwen2.5-Omni na precisão objetiva, de 55,1% para 91,5%. Em testes A/B subjetivos, o WavReward também lidera com uma margem de 83%. Estudos abrangentes de ablação confirmam a necessidade de cada componente do WavReward. Todos os dados e códigos estarão publicamente disponíveis em https://github.com/jishengpeng/WavReward após a aceitação do artigo.
English
End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered significant attention in the speech domain. However, the evaluation of spoken dialogue models' conversational performance has largely been overlooked. This is primarily due to the intelligent chatbots convey a wealth of non-textual information which cannot be easily measured using text-based language models like ChatGPT. To address this gap, we propose WavReward, a reward feedback model based on audio language models that can evaluate both the IQ and EQ of spoken dialogue systems with speech input. Specifically, 1) based on audio language models, WavReward incorporates the deep reasoning process and the nonlinear reward mechanism for post-training. By utilizing multi-sample feedback via the reinforcement learning algorithm, we construct a specialized evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a preference dataset used to train WavReward. ChatReward-30K includes both comprehension and generation aspects of spoken dialogue models. These scenarios span various tasks, such as text-based chats, nine acoustic attributes of instruction chats, and implicit chats. WavReward outperforms previous state-of-the-art evaluation models across multiple spoken dialogue scenarios, achieving a substantial improvement about Qwen2.5-Omni in objective accuracy from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a margin of 83%. Comprehensive ablation studies confirm the necessity of each component of WavReward. All data and code will be publicly at https://github.com/jishengpeng/WavReward after the paper is accepted.
PDF113May 15, 2025