Naar mensachtige interactieve spraakherkenning met agentische correctie en semantische evaluatie

Samenvatting

Automatische spraakherkenning (ASR) is een kerncomponent van mens-computerinteractie en een steeds belangrijkere front-end voor op LLM gebaseerde assistenten en agenten. De meeste huidige ASR-systemen volgen echter nog steeds een eenmalige doorloopparadigma, wat slecht aansluit bij menselijke communicatie, waar misverstanden worden opgelost door iteratieve verduidelijking en verfijning. Deze mismatch maakt het moeilijk om betekenis-kritieke fouten te corrigeren zodra ze optreden. Tegelijkertijd kunnen token-niveau metrics zoals WER of CER dit probleem niet adequaat weerspiegelen. Om deze beperkingen aan te pakken, formuleren we Interactieve ASR als een meervoudige verfijningstaak en stellen we Agentic ASR voor, een gesloten-lus raamwerk dat een eenmalige doorloop ASR-front-end combineert met semantische correctie, intent-routering en redeneringsgebaseerde bewerking. Verder introduceren we het Zinsniveau Semantische Foutentarief (S^2ER), een op LLM gebaseerde semantische evaluatiemetriek, samen met een Interactief Simulatiesysteem voor schaalbare en reproduceerbare benchmarking. Experimenten op meertalige, entiteitsintensieve en code-switching benchmarks tonen aan dat iteratieve interactie consistent semantische fouten vermindert, met veel grotere winsten in S^2ER dan in conventionele token-niveau metrics. Mens-AI afstemmings- en ablatiestudies bevestigen verder de betrouwbaarheid van de semantische beoordeling en de robuustheid van het voorgestelde raamwerk. De code is beschikbaar op: https://interactiveasr.github.io/ en de live demo is beschikbaar op https://i-asr.sjtuxlance.com/

English

Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate Interactive ASR as a multi-turn refinement task and propose Agentic ASR, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the Sentence-level Semantic Error Rate (S^2ER), an LLM-based semantic evaluation metric, together with an Interactive Simulation System for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in S^2ER than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/