ChatPaper.aiChatPaper

К человекоподобному интерактивному распознаванию речи с агентной коррекцией и семантической оценкой

Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation

May 28, 2026
Авторы: Zixuan Jiang, Yanqiao Zhu, Peng Wang, Qinyuan Chen, Xinjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen
cs.AI

Аннотация

Автоматическое распознавание речи (АРР) является ключевым компонентом человеко-компьютерного взаимодействия и всё более важным интерфейсом для ассистентов и агентов на основе больших языковых моделей. Однако большинство современных систем АРР по-прежнему следуют однопроходной парадигме, которая плохо согласуется с человеческой коммуникацией, где недопонимания разрешаются путём итеративного уточнения и доработки. Это несоответствие затрудняет исправление ошибок, критически важных для смысла, после их возникновения. Кроме того, потоковые метрики, такие как WER или CER, не в полной мере отражают данную проблему. Для преодоления этих ограничений мы формулируем интерактивное АРР как задачу многократного уточнения и предлагаем Agentic ASR — замкнутую структуру, объединяющую однопроходный фронтенд АРР с семантической коррекцией, маршрутизацией намерений и редактированием на основе рассуждений. Мы также вводим метрику семантической частоты ошибок на уровне предложений (S²ER) — метрику семантической оценки на основе LLM, а также интерактивную систему моделирования для масштабируемого и воспроизводимого бенчмаркинга. Эксперименты на многоязычных тестах, интенсивных по именованным сущностям, и тестах с переключением кодов показывают, что итеративное взаимодействие последовательно снижает семантические ошибки, причём выигрыш по S²ER значительно больше, чем по традиционным потоковым метрикам. Исследования согласования человека и ИИ, а также абляционные исследования дополнительно подтверждают надёжность семантического судьи и устойчивость предложенной структуры. Код доступен по адресу: https://interactiveasr.github.io/, а живая демонстрация — по адресу: https://i-asr.sjtuxlance.com/.
English
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate Interactive ASR as a multi-turn refinement task and propose Agentic ASR, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the Sentence-level Semantic Error Rate (S^2ER), an LLM-based semantic evaluation metric, together with an Interactive Simulation System for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in S^2ER than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/