人間らしい対話的音声認識に向けた能動的訂正と意味評価
Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation
May 28, 2026
著者: Zixuan Jiang, Yanqiao Zhu, Peng Wang, Qinyuan Chen, Xinjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen
cs.AI
要旨
自動音声認識(ASR)はヒューマンコンピュータインタラクションの核となる構成要素であり、LLMベースのアシスタントやエージェントにおいて重要性が増すフロントエンドである。しかし、現在のASRシステムのほとんどは依然として単一パス方式に従っており、誤解が繰り返しの明確化と修正によって解消される人間のコミュニケーションとは整合性が低い。この不一致により、一度発生した意味的に重要な誤りを訂正することが困難となる。また、WERやCERといったトークンレベルの指標では、この問題を適切に反映できない。これらの限界に対処するため、我々は対話型ASRをマルチターン修正タスクとして定式化し、単一パスASRフロントエンドと意味修正、意図ルーティング、推論ベース編集を組み合わせた閉ループフレームワークであるAgentic ASRを提案する。さらに、LLMベースの意味評価指標である文レベル意味誤り率(S²ER)と、拡張可能かつ再現性のあるベンチマーク評価のための対話型シミュレーションシステムを導入する。多言語、固有表現密集、コードスイッチングのベンチマーク実験により、反復的な対話が一貫して意味誤りを低減し、従来のトークンレベル指標よりもS²ERにおいてはるかに大きな改善が見られることを示す。人間-AIの整合性評価とアブレーション研究により、意味判定器の信頼性と提案フレームワークの頑健性がさらに検証された。コードはhttps://interactiveasr.github.io/、ライブデモはhttps://i-asr.sjtuxlance.com/で公開されている。
English
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate Interactive ASR as a multi-turn refinement task and propose Agentic ASR, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the Sentence-level Semantic Error Rate (S^2ER), an LLM-based semantic evaluation metric, together with an Interactive Simulation System for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in S^2ER than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/