ChatPaper.aiChatPaper

C3: Een tweetalige benchmark voor gesproken dialoogmodellen die uitdagingen in complexe gesprekken onderzoekt

C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations

July 30, 2025
Auteurs: Chengqian Ma, Wei Tao, Yiwen Guo
cs.AI

Samenvatting

Gesproken Dialoogmodellen (SDM's) hebben recentelijk aanzienlijke aandacht getrokken vanwege hun vermogen om direct spraakreacties te genereren op gesproken vragen van gebruikers. Ondanks hun groeiende populariteit bestaat er een kloof in onderzoek dat zich richt op het uitgebreid begrijpen van hun praktische effectiviteit in het begrijpen en nabootsen van menselijke gesprekken. Dit geldt vooral in vergelijking met tekstgebaseerde Grote Taalmodellen (LLM's), die profiteren van uitgebreide benchmarking. Menselijke steminteracties zijn inherent complexer dan tekst vanwege kenmerken die uniek zijn voor gesproken dialoog. Ambiguïteit vormt een uitdaging, voortkomend uit semantische factoren zoals polysemie, evenals fonologische aspecten zoals heterografie, heteroniemen en klemtoonpatronen. Daarnaast voegt contextafhankelijkheid, zoals weglating, coreferentie en meerzijdige interactie, verdere complexiteit toe aan de dynamiek van menselijke gesprekken. Om de huidige stand van ontwikkeling van SDM's te belichten en deze uitdagingen aan te pakken, presenteren we in dit artikel een benchmarkdataset die 1.079 gevallen in het Engels en Chinees omvat. Begeleid door een op LLM gebaseerde evaluatiemethode die nauw aansluit bij menselijk oordeel, vergemakkelijkt deze dataset een uitgebreide verkenning van de prestaties van SDM's bij het aanpakken van deze praktische uitdagingen.
English
Spoken Dialogue Models (SDMs) have recently attracted significant attention for their ability to generate voice responses directly to users' spoken queries. Despite their increasing popularity, there exists a gap in research focused on comprehensively understanding their practical effectiveness in comprehending and emulating human conversations. This is especially true compared to text-based Large Language Models (LLMs), which benefit from extensive benchmarking. Human voice interactions are inherently more complex than text due to characteristics unique to spoken dialogue. Ambiguity poses one challenge, stemming from semantic factors like polysemy, as well as phonological aspects such as heterograph, heteronyms, and stress patterns. Additionally, context-dependency, like omission, coreference, and multi-turn interaction, adds further complexity to human conversational dynamics. To illuminate the current state of SDM development and to address these challenges, we present a benchmark dataset in this paper, which comprises 1,079 instances in English and Chinese. Accompanied by an LLM-based evaluation method that closely aligns with human judgment, this dataset facilitates a comprehensive exploration of the performance of SDMs in tackling these practical challenges.
PDF203August 1, 2025