C3: Um Benchmark Bilíngue para Modelos de Diálogo Falado Explorando Desafios em Conversas Complexas
C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations
July 30, 2025
Autores: Chengqian Ma, Wei Tao, Yiwen Guo
cs.AI
Resumo
Modelos de Diálogo Falado (SDMs, na sigla em inglês) têm recentemente atraído atenção significativa por sua capacidade de gerar respostas de voz diretamente para consultas faladas dos usuários. Apesar de sua crescente popularidade, existe uma lacuna na pesquisa focada em compreender de forma abrangente sua eficácia prática na compreensão e emulação de conversas humanas. Isso é especialmente verdadeiro em comparação com os Modelos de Linguagem de Grande Escala (LLMs) baseados em texto, que se beneficiam de extensos benchmarks. As interações de voz humana são inerentemente mais complexas do que o texto devido a características únicas do diálogo falado. A ambiguidade representa um desafio, decorrente de fatores semânticos como a polissemia, bem como aspectos fonológicos como heterografia, heterônimos e padrões de acentuação. Além disso, a dependência de contexto, como omissão, correferência e interação multivolta, adiciona ainda mais complexidade à dinâmica das conversas humanas. Para esclarecer o estado atual do desenvolvimento de SDMs e abordar esses desafios, apresentamos neste artigo um conjunto de dados de benchmark, que compreende 1.079 instâncias em inglês e chinês. Acompanhado por um método de avaliação baseado em LLM que se alinha de perto com o julgamento humano, esse conjunto de dados facilita uma exploração abrangente do desempenho dos SDMs no enfrentamento desses desafios práticos.
English
Spoken Dialogue Models (SDMs) have recently attracted significant attention
for their ability to generate voice responses directly to users' spoken
queries. Despite their increasing popularity, there exists a gap in research
focused on comprehensively understanding their practical effectiveness in
comprehending and emulating human conversations. This is especially true
compared to text-based Large Language Models (LLMs), which benefit from
extensive benchmarking. Human voice interactions are inherently more complex
than text due to characteristics unique to spoken dialogue. Ambiguity poses one
challenge, stemming from semantic factors like polysemy, as well as
phonological aspects such as heterograph, heteronyms, and stress patterns.
Additionally, context-dependency, like omission, coreference, and multi-turn
interaction, adds further complexity to human conversational dynamics. To
illuminate the current state of SDM development and to address these
challenges, we present a benchmark dataset in this paper, which comprises 1,079
instances in English and Chinese. Accompanied by an LLM-based evaluation method
that closely aligns with human judgment, this dataset facilitates a
comprehensive exploration of the performance of SDMs in tackling these
practical challenges.