C3: Un Benchmark Bilingue per Modelli di Dialogo Parlato che Esplora le Sfide nelle Conversazioni Complesse
C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations
July 30, 2025
Autori: Chengqian Ma, Wei Tao, Yiwen Guo
cs.AI
Abstract
I modelli di dialogo parlato (Spoken Dialogue Models, SDM) hanno recentemente attirato notevole attenzione per la loro capacità di generare risposte vocali direttamente alle query vocali degli utenti. Nonostante la loro crescente popolarità, esiste un vuoto nella ricerca focalizzato sulla comprensione completa della loro efficacia pratica nel comprendere e emulare le conversazioni umane. Questo è particolarmente vero se confrontati con i modelli linguistici di grandi dimensioni (Large Language Models, LLM) basati su testo, che beneficiano di un ampio benchmarking. Le interazioni vocali umane sono intrinsecamente più complesse del testo a causa di caratteristiche uniche del dialogo parlato. L'ambiguità rappresenta una sfida, derivante da fattori semantici come la polisemia, nonché aspetti fonologici come gli eterografi, gli eteronimi e i modelli di accento. Inoltre, la dipendenza dal contesto, come l'omissione, la coreferenza e l'interazione multi-turn, aggiunge ulteriore complessità alla dinamica delle conversazioni umane. Per illuminare lo stato attuale dello sviluppo degli SDM e affrontare queste sfide, presentiamo in questo articolo un dataset di benchmark, che comprende 1.079 istanze in inglese e cinese. Accompagnato da un metodo di valutazione basato su LLM che si allinea strettamente al giudizio umano, questo dataset facilita un'esplorazione completa delle prestazioni degli SDM nell'affrontare queste sfide pratiche.
English
Spoken Dialogue Models (SDMs) have recently attracted significant attention
for their ability to generate voice responses directly to users' spoken
queries. Despite their increasing popularity, there exists a gap in research
focused on comprehensively understanding their practical effectiveness in
comprehending and emulating human conversations. This is especially true
compared to text-based Large Language Models (LLMs), which benefit from
extensive benchmarking. Human voice interactions are inherently more complex
than text due to characteristics unique to spoken dialogue. Ambiguity poses one
challenge, stemming from semantic factors like polysemy, as well as
phonological aspects such as heterograph, heteronyms, and stress patterns.
Additionally, context-dependency, like omission, coreference, and multi-turn
interaction, adds further complexity to human conversational dynamics. To
illuminate the current state of SDM development and to address these
challenges, we present a benchmark dataset in this paper, which comprises 1,079
instances in English and Chinese. Accompanied by an LLM-based evaluation method
that closely aligns with human judgment, this dataset facilitates a
comprehensive exploration of the performance of SDMs in tackling these
practical challenges.