C3: 복잡한 대화에서의 도전 과제를 탐구하는 음성 대화 모델을 위한 이중 언어 벤치마크
C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations
July 30, 2025
저자: Chengqian Ma, Wei Tao, Yiwen Guo
cs.AI
초록
음성 대화 모델(Spoken Dialogue Models, SDMs)은 최근 사용자의 음성 질문에 직접 음성 응답을 생성할 수 있는 능력으로 인해 상당한 주목을 받고 있다. 그러나 이러한 모델의 인기가 증가함에도 불구하고, 인간 대화를 이해하고 모방하는 데 있어서의 실질적인 효과를 포괄적으로 이해하기 위한 연구는 여전히 부족한 실정이다. 이는 특히 광범위한 벤치마킹을 통해 이점을 누리는 텍스트 기반 대형 언어 모델(Large Language Models, LLMs)과 비교할 때 더욱 두드러진다. 인간의 음성 상호작용은 음성 대화에 고유한 특성으로 인해 텍스트보다 본질적으로 더 복잡하다. 모호성은 다의어와 같은 의미론적 요인뿐만 아니라 이형어, 이음동의어, 강세 패턴과 같은 음운론적 측면에서 비롯된 하나의 도전 과제이다. 또한, 생략, 공참조, 다중 턴 상호작용과 같은 맥락 의존성은 인간 대화 역학에 추가적인 복잡성을 더한다. 이러한 도전 과제를 해결하고 SDM 개발의 현재 상태를 조명하기 위해, 본 논문에서는 영어와 중국어로 구성된 1,079개의 사례를 포함한 벤치마크 데이터셋을 제시한다. 인간의 판단과 밀접하게 일치하는 LLM 기반 평가 방법과 함께, 이 데이터셋은 SDM이 이러한 실질적인 도전 과제를 해결하는 데 있어서의 성능을 포괄적으로 탐구할 수 있도록 한다.
English
Spoken Dialogue Models (SDMs) have recently attracted significant attention
for their ability to generate voice responses directly to users' spoken
queries. Despite their increasing popularity, there exists a gap in research
focused on comprehensively understanding their practical effectiveness in
comprehending and emulating human conversations. This is especially true
compared to text-based Large Language Models (LLMs), which benefit from
extensive benchmarking. Human voice interactions are inherently more complex
than text due to characteristics unique to spoken dialogue. Ambiguity poses one
challenge, stemming from semantic factors like polysemy, as well as
phonological aspects such as heterograph, heteronyms, and stress patterns.
Additionally, context-dependency, like omission, coreference, and multi-turn
interaction, adds further complexity to human conversational dynamics. To
illuminate the current state of SDM development and to address these
challenges, we present a benchmark dataset in this paper, which comprises 1,079
instances in English and Chinese. Accompanied by an LLM-based evaluation method
that closely aligns with human judgment, this dataset facilitates a
comprehensive exploration of the performance of SDMs in tackling these
practical challenges.