C3 : Un benchmark bilingue pour les modèles de dialogue parlé explorant les défis des conversations complexes
C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations
July 30, 2025
papers.authors: Chengqian Ma, Wei Tao, Yiwen Guo
cs.AI
papers.abstract
Les modèles de dialogue parlé (SDMs) ont récemment suscité un intérêt considérable pour leur capacité à générer des réponses vocales directement aux requêtes orales des utilisateurs. Malgré leur popularité croissante, il existe un manque de recherche axée sur la compréhension approfondie de leur efficacité pratique dans la compréhension et l'imitation des conversations humaines. Cela est particulièrement vrai par rapport aux modèles de langage à grande échelle (LLMs) basés sur le texte, qui bénéficient d'un benchmarking extensif. Les interactions vocales humaines sont intrinsèquement plus complexes que le texte en raison de caractéristiques propres au dialogue parlé. L'ambiguïté constitue un défi, découlant de facteurs sémantiques comme la polysémie, ainsi que d'aspects phonologiques tels que les hétérographes, les hétéronymes et les schémas d'accentuation. De plus, la dépendance contextuelle, comme l'omission, la coréférence et l'interaction multi-tours, ajoute une complexité supplémentaire à la dynamique conversationnelle humaine. Pour éclairer l'état actuel du développement des SDMs et relever ces défis, nous présentons dans cet article un ensemble de données de référence, comprenant 1 079 instances en anglais et en chinois. Accompagné d'une méthode d'évaluation basée sur un LLM qui s'aligne étroitement avec le jugement humain, cet ensemble de données facilite une exploration approfondie de la performance des SDMs face à ces défis pratiques.
English
Spoken Dialogue Models (SDMs) have recently attracted significant attention
for their ability to generate voice responses directly to users' spoken
queries. Despite their increasing popularity, there exists a gap in research
focused on comprehensively understanding their practical effectiveness in
comprehending and emulating human conversations. This is especially true
compared to text-based Large Language Models (LLMs), which benefit from
extensive benchmarking. Human voice interactions are inherently more complex
than text due to characteristics unique to spoken dialogue. Ambiguity poses one
challenge, stemming from semantic factors like polysemy, as well as
phonological aspects such as heterograph, heteronyms, and stress patterns.
Additionally, context-dependency, like omission, coreference, and multi-turn
interaction, adds further complexity to human conversational dynamics. To
illuminate the current state of SDM development and to address these
challenges, we present a benchmark dataset in this paper, which comprises 1,079
instances in English and Chinese. Accompanied by an LLM-based evaluation method
that closely aligns with human judgment, this dataset facilitates a
comprehensive exploration of the performance of SDMs in tackling these
practical challenges.