К человекоподобному интерактивному распознаванию речи с агентной коррекцией и семантической оценкой

Аннотация

Автоматическое распознавание речи (АРР) является ключевым компонентом человеко-компьютерного взаимодействия и всё более важным интерфейсом для ассистентов и агентов на основе больших языковых моделей. Однако большинство современных систем АРР по-прежнему следуют однопроходной парадигме, которая плохо согласуется с человеческой коммуникацией, где недопонимания разрешаются путём итеративного уточнения и доработки. Это несоответствие затрудняет исправление ошибок, критически важных для смысла, после их возникновения. Кроме того, потоковые метрики, такие как WER или CER, не в полной мере отражают данную проблему. Для преодоления этих ограничений мы формулируем интерактивное АРР как задачу многократного уточнения и предлагаем Agentic ASR — замкнутую структуру, объединяющую однопроходный фронтенд АРР с семантической коррекцией, маршрутизацией намерений и редактированием на основе рассуждений. Мы также вводим метрику семантической частоты ошибок на уровне предложений (S²ER) — метрику семантической оценки на основе LLM, а также интерактивную систему моделирования для масштабируемого и воспроизводимого бенчмаркинга. Эксперименты на многоязычных тестах, интенсивных по именованным сущностям, и тестах с переключением кодов показывают, что итеративное взаимодействие последовательно снижает семантические ошибки, причём выигрыш по S²ER значительно больше, чем по традиционным потоковым метрикам. Исследования согласования человека и ИИ, а также абляционные исследования дополнительно подтверждают надёжность семантического судьи и устойчивость предложенной структуры. Код доступен по адресу: https://interactiveasr.github.io/, а живая демонстрация — по адресу: https://i-asr.sjtuxlance.com/.

English

Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate Interactive ASR as a multi-turn refinement task and propose Agentic ASR, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the Sentence-level Semantic Error Rate (S^2ER), an LLM-based semantic evaluation metric, together with an Interactive Simulation System for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in S^2ER than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/