ChatPaper.aiChatPaper

C3: 複雑な会話における課題を探るための二言語対話モデルベンチマーク

C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations

July 30, 2025
著者: Chengqian Ma, Wei Tao, Yiwen Guo
cs.AI

要旨

音声対話モデル(Spoken Dialogue Models, SDMs)は、ユーザーの音声クエリに対して直接音声応答を生成する能力により、近年注目を集めている。しかし、その人気が高まる一方で、SDMsが人間の会話を理解し模倣する実践的な有効性を包括的に理解するための研究は不足している。これは、特にテキストベースの大規模言語モデル(Large Language Models, LLMs)と比較して顕著であり、LLMsは広範なベンチマーキングの恩恵を受けている。人間の音声相互作用は、音声対話に特有の特性により、テキストよりも本質的に複雑である。曖昧さはその一例であり、多義性などの意味的要因や、異字同音語、異音同綴語、アクセントパターンなどの音韻的要因に起因する。さらに、省略、照応、多ターン相互作用などの文脈依存性も、人間の会話ダイナミクスにさらなる複雑さを加える。これらの課題に対処し、SDM開発の現状を明らかにするため、本論文では英語と中国語の1,079事例からなるベンチマークデータセットを提示する。このデータセットは、人間の判断に近いLLMベースの評価手法を伴い、SDMsがこれらの実践的課題に取り組む際の性能を包括的に探ることを可能にする。
English
Spoken Dialogue Models (SDMs) have recently attracted significant attention for their ability to generate voice responses directly to users' spoken queries. Despite their increasing popularity, there exists a gap in research focused on comprehensively understanding their practical effectiveness in comprehending and emulating human conversations. This is especially true compared to text-based Large Language Models (LLMs), which benefit from extensive benchmarking. Human voice interactions are inherently more complex than text due to characteristics unique to spoken dialogue. Ambiguity poses one challenge, stemming from semantic factors like polysemy, as well as phonological aspects such as heterograph, heteronyms, and stress patterns. Additionally, context-dependency, like omission, coreference, and multi-turn interaction, adds further complexity to human conversational dynamics. To illuminate the current state of SDM development and to address these challenges, we present a benchmark dataset in this paper, which comprises 1,079 instances in English and Chinese. Accompanied by an LLM-based evaluation method that closely aligns with human judgment, this dataset facilitates a comprehensive exploration of the performance of SDMs in tackling these practical challenges.
PDF193August 1, 2025