WavReward: 일반화된 보상 평가기를 갖춘 음성 대화 모델
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
May 14, 2025
저자: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao
cs.AI
초록
GPT-4o-audio와 같은 종단 간 음성 대화 모델은 최근 음성 분야에서 상당한 주목을 받고 있습니다. 그러나 음성 대화 모델의 대화 성능 평가는 크게 간과되어 왔습니다. 이는 주로 지능형 챗봇이 텍스트 기반 언어 모델(예: ChatGPT)로는 쉽게 측정할 수 없는 다양한 비텍스트 정보를 전달하기 때문입니다. 이러한 격차를 해결하기 위해, 우리는 음성 입력을 통해 음성 대화 시스템의 IQ와 EQ를 모두 평가할 수 있는 오디오 언어 모델 기반의 보상 피드백 모델인 WavReward를 제안합니다. 구체적으로, 1) 오디오 언어 모델을 기반으로 WavReward는 심층 추론 과정과 사후 학습을 위한 비선형 보상 메커니즘을 통합합니다. 강화 학습 알고리즘을 통해 다중 샘플 피드백을 활용함으로써, 음성 대화 모델에 특화된 평가자를 구축합니다. 2) WavReward를 훈련하기 위해 사용된 선호도 데이터셋인 ChatReward-30K를 소개합니다. ChatReward-30K는 음성 대화 모델의 이해와 생성 측면을 모두 포함하며, 텍스트 기반 채팅, 지시 채팅의 9가지 음향 속성, 암묵적 채팅 등 다양한 작업을 아우릅니다. WavReward는 여러 음성 대화 시나리오에서 이전의 최신 평가 모델을 능가하며, Qwen2.5-Omni 대비 객관적 정확도에서 55.1%에서 91.5%로 상당한 개선을 달성했습니다. 주관적 A/B 테스트에서도 WavReward는 83%의 차이로 앞섰습니다. 포괄적인 어블레이션 연구는 WavReward의 각 구성 요소의 필요성을 확인합니다. 모든 데이터와 코드는 논문이 승인된 후 https://github.com/jishengpeng/WavReward에서 공개될 예정입니다.
English
End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered
significant attention in the speech domain. However, the evaluation of spoken
dialogue models' conversational performance has largely been overlooked. This
is primarily due to the intelligent chatbots convey a wealth of non-textual
information which cannot be easily measured using text-based language models
like ChatGPT. To address this gap, we propose WavReward, a reward feedback
model based on audio language models that can evaluate both the IQ and EQ of
spoken dialogue systems with speech input. Specifically, 1) based on audio
language models, WavReward incorporates the deep reasoning process and the
nonlinear reward mechanism for post-training. By utilizing multi-sample
feedback via the reinforcement learning algorithm, we construct a specialized
evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a
preference dataset used to train WavReward. ChatReward-30K includes both
comprehension and generation aspects of spoken dialogue models. These scenarios
span various tasks, such as text-based chats, nine acoustic attributes of
instruction chats, and implicit chats. WavReward outperforms previous
state-of-the-art evaluation models across multiple spoken dialogue scenarios,
achieving a substantial improvement about Qwen2.5-Omni in objective accuracy
from 55.1% to 91.5%. In subjective A/B testing, WavReward also leads by a
margin of 83%. Comprehensive ablation studies confirm the necessity of each
component of WavReward. All data and code will be publicly at
https://github.com/jishengpeng/WavReward after the paper is accepted.Summary
AI-Generated Summary