ChatPaper.aiChatPaper

C3: Ein bilingualer Benchmark für gesprochene Dialogmodelle zur Untersuchung von Herausforderungen in komplexen Konversationen

C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations

July 30, 2025
papers.authors: Chengqian Ma, Wei Tao, Yiwen Guo
cs.AI

papers.abstract

Gesprochene Dialogmodelle (SDMs) haben in letzter Zeit erhebliche Aufmerksamkeit erregt, da sie in der Lage sind, direkt auf gesprochene Anfragen von Nutzern mit Sprachantworten zu reagieren. Trotz ihrer zunehmenden Beliebtheit besteht eine Forschungslücke, die sich auf das umfassende Verständnis ihrer praktischen Effektivität beim Verstehen und Nachahmen menschlicher Gespräche konzentriert. Dies gilt insbesondere im Vergleich zu textbasierten Large Language Models (LLMs), die von umfangreichen Benchmarking-Studien profitieren. Menschliche Sprachinteraktionen sind aufgrund von Merkmalen, die für gesprochene Dialoge einzigartig sind, von Natur aus komplexer als Text. Mehrdeutigkeit stellt eine Herausforderung dar, die sich aus semantischen Faktoren wie Polysemie sowie phonologischen Aspekten wie Heterographie, Heteronymen und Betonungsmustern ergibt. Darüber hinaus erhöhen kontextabhängige Faktoren wie Auslassungen, Koreferenzen und mehrschrittige Interaktionen die Komplexität menschlicher Gesprächsdynamiken. Um den aktuellen Stand der SDM-Entwicklung zu beleuchten und diese Herausforderungen zu bewältigen, stellen wir in diesem Artikel einen Benchmark-Datensatz vor, der 1.079 Instanzen in Englisch und Chinesisch umfasst. Begleitet von einer LLM-basierten Evaluationsmethode, die eng mit der menschlichen Beurteilung übereinstimmt, ermöglicht dieser Datensatz eine umfassende Untersuchung der Leistung von SDMs bei der Bewältigung dieser praktischen Herausforderungen.
English
Spoken Dialogue Models (SDMs) have recently attracted significant attention for their ability to generate voice responses directly to users' spoken queries. Despite their increasing popularity, there exists a gap in research focused on comprehensively understanding their practical effectiveness in comprehending and emulating human conversations. This is especially true compared to text-based Large Language Models (LLMs), which benefit from extensive benchmarking. Human voice interactions are inherently more complex than text due to characteristics unique to spoken dialogue. Ambiguity poses one challenge, stemming from semantic factors like polysemy, as well as phonological aspects such as heterograph, heteronyms, and stress patterns. Additionally, context-dependency, like omission, coreference, and multi-turn interaction, adds further complexity to human conversational dynamics. To illuminate the current state of SDM development and to address these challenges, we present a benchmark dataset in this paper, which comprises 1,079 instances in English and Chinese. Accompanied by an LLM-based evaluation method that closely aligns with human judgment, this dataset facilitates a comprehensive exploration of the performance of SDMs in tackling these practical challenges.
PDF203August 1, 2025