C3: Un punto de referencia bilingüe para modelos de diálogo hablado que explora los desafíos en conversaciones complejas
C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations
July 30, 2025
Autores: Chengqian Ma, Wei Tao, Yiwen Guo
cs.AI
Resumen
Los Modelos de Diálogo Hablado (SDMs, por sus siglas en inglés) han atraído recientemente una atención significativa debido a su capacidad para generar respuestas de voz directamente a las consultas habladas de los usuarios. A pesar de su creciente popularidad, existe una brecha en la investigación centrada en comprender de manera integral su efectividad práctica para comprender y emular conversaciones humanas. Esto es especialmente cierto en comparación con los Modelos de Lenguaje de Gran Escala (LLMs) basados en texto, los cuales se benefician de una extensa evaluación comparativa. Las interacciones de voz humana son inherentemente más complejas que el texto debido a características únicas del diálogo hablado. La ambigüedad representa un desafío, derivado de factores semánticos como la polisemia, así como aspectos fonológicos como los heterógrafos, heterónimos y patrones de acentuación. Además, la dependencia del contexto, como la omisión, la correferencia y la interacción de múltiples turnos, añade mayor complejidad a la dinámica de las conversaciones humanas. Para esclarecer el estado actual del desarrollo de los SDMs y abordar estos desafíos, presentamos en este artículo un conjunto de datos de referencia que comprende 1.079 instancias en inglés y chino. Acompañado de un método de evaluación basado en LLMs que se alinea estrechamente con el juicio humano, este conjunto de datos facilita una exploración exhaustiva del rendimiento de los SDMs al enfrentar estos desafíos prácticos.
English
Spoken Dialogue Models (SDMs) have recently attracted significant attention
for their ability to generate voice responses directly to users' spoken
queries. Despite their increasing popularity, there exists a gap in research
focused on comprehensively understanding their practical effectiveness in
comprehending and emulating human conversations. This is especially true
compared to text-based Large Language Models (LLMs), which benefit from
extensive benchmarking. Human voice interactions are inherently more complex
than text due to characteristics unique to spoken dialogue. Ambiguity poses one
challenge, stemming from semantic factors like polysemy, as well as
phonological aspects such as heterograph, heteronyms, and stress patterns.
Additionally, context-dependency, like omission, coreference, and multi-turn
interaction, adds further complexity to human conversational dynamics. To
illuminate the current state of SDM development and to address these
challenges, we present a benchmark dataset in this paper, which comprises 1,079
instances in English and Chinese. Accompanied by an LLM-based evaluation method
that closely aligns with human judgment, this dataset facilitates a
comprehensive exploration of the performance of SDMs in tackling these
practical challenges.