C3: Двуязычный эталон для моделей разговорного диалога, исследующий сложности в сложных диалогах
C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations
July 30, 2025
Авторы: Chengqian Ma, Wei Tao, Yiwen Guo
cs.AI
Аннотация
Модели разговорного диалога (Spoken Dialogue Models, SDMs) в последнее время привлекают значительное внимание благодаря своей способности генерировать голосовые ответы непосредственно на устные запросы пользователей. Несмотря на растущую популярность, существует пробел в исследованиях, направленных на всестороннее понимание их практической эффективности в понимании и имитации человеческих разговоров. Это особенно заметно в сравнении с текстовыми крупномасштабными языковыми моделями (Large Language Models, LLMs), которые имеют преимущество благодаря обширному бенчмаркингу. Голосовое взаимодействие по своей природе сложнее текстового из-за уникальных характеристик устного диалога. Одной из проблем является неоднозначность, возникающая из-за семантических факторов, таких как полисемия, а также фонологических аспектов, включая гетерографы, омонимы и акцентные паттерны. Кроме того, контекстная зависимость, такая как опущение, кореференция и многоходовое взаимодействие, добавляет дополнительную сложность в динамику человеческого общения. Чтобы осветить текущее состояние разработки SDM и решить эти проблемы, в данной статье представлен бенчмарк-набор данных, включающий 1079 примеров на английском и китайском языках. В сочетании с методом оценки на основе LLM, который тесно согласуется с человеческим суждением, этот набор данных способствует всестороннему исследованию производительности SDM в решении этих практических задач.
English
Spoken Dialogue Models (SDMs) have recently attracted significant attention
for their ability to generate voice responses directly to users' spoken
queries. Despite their increasing popularity, there exists a gap in research
focused on comprehensively understanding their practical effectiveness in
comprehending and emulating human conversations. This is especially true
compared to text-based Large Language Models (LLMs), which benefit from
extensive benchmarking. Human voice interactions are inherently more complex
than text due to characteristics unique to spoken dialogue. Ambiguity poses one
challenge, stemming from semantic factors like polysemy, as well as
phonological aspects such as heterograph, heteronyms, and stress patterns.
Additionally, context-dependency, like omission, coreference, and multi-turn
interaction, adds further complexity to human conversational dynamics. To
illuminate the current state of SDM development and to address these
challenges, we present a benchmark dataset in this paper, which comprises 1,079
instances in English and Chinese. Accompanied by an LLM-based evaluation method
that closely aligns with human judgment, this dataset facilitates a
comprehensive exploration of the performance of SDMs in tackling these
practical challenges.