ChatPaper.aiChatPaper

WavReward: Модели разговорной речи с универсальными системами оценки вознаграждения

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

May 14, 2025
Авторы: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao
cs.AI

Аннотация

Модели сквозного речевого диалога, такие как GPT-4o-audio, недавно привлекли значительное внимание в области обработки речи. Однако оценка качества диалоговых речевых моделей в значительной степени оставалась без внимания. Это связано в первую очередь с тем, что интеллектуальные чат-боты передают множество невербальной информации, которую сложно измерить с помощью текстовых языковых моделей, таких как ChatGPT. Чтобы устранить этот пробел, мы предлагаем WavReward — модель обратной связи на основе аудио-языковых моделей, которая может оценивать как IQ, так и EQ речевых диалоговых систем с использованием речевого ввода. В частности: 1) WavReward, основанная на аудио-языковых моделях, включает глубокий процесс рассуждений и нелинейный механизм вознаграждения для пост-обучения. Используя многообразную обратную связь через алгоритм обучения с подкреплением, мы создаем специализированного оценщика, адаптированного для речевых диалоговых моделей. 2) Мы представляем ChatReward-30K — набор данных предпочтений, используемый для обучения WavReward. ChatReward-30K охватывает как аспекты понимания, так и генерации речевых диалоговых моделей. Эти сценарии включают различные задачи, такие как текстовые чаты, девять акустических атрибутов инструктивных чатов и неявные чаты. WavReward превосходит предыдущие передовые модели оценки в различных сценариях речевого диалога, демонстрируя значительное улучшение объективной точности по сравнению с Qwen2.5-Omni — с 55,1% до 91,5%. В субъективном A/B-тестировании WavReward также лидирует с отрывом в 83%. Всесторонние исследования подтверждают необходимость каждого компонента WavReward. Все данные и код будут доступны по адресу https://github.com/jishengpeng/WavReward после принятия статьи.
English
End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered significant attention in the speech domain. However, the evaluation of spoken dialogue models' conversational performance has largely been overlooked. This is primarily due to the intelligent chatbots convey a wealth of non-textual information which cannot be easily measured using text-based language models like ChatGPT. To address this gap, we propose WavReward, a reward feedback model based on audio language models that can evaluate both the IQ and EQ of spoken dialogue systems with speech input. Specifically, 1) based on audio language models, WavReward incorporates the deep reasoning process and the nonlinear reward mechanism for post-training. By utilizing multi-sample feedback via the reinforcement learning algorithm, we construct a specialized evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a preference dataset used to train WavReward. ChatReward-30K includes both comprehension and generation aspects of spoken dialogue models. These scenarios span various tasks, such as text-based chats, nine acoustic attributes of instruction chats, and implicit chats. WavReward outperforms previous state-of-the-art evaluation models across multiple spoken dialogue scenarios, achieving a substantial improvement about Qwen2.5-Omni in objective accuracy from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a margin of 83%. Comprehensive ablation studies confirm the necessity of each component of WavReward. All data and code will be publicly at https://github.com/jishengpeng/WavReward after the paper is accepted.

Summary

AI-Generated Summary

PDF53May 15, 2025