Auf dem Weg zur menschenähnlichen interaktiven Spracherkennung mit agentischer Korrektur und semantischer Bewertung

Zusammenfassung

Automatische Spracherkennung (ASR) ist eine Kernkomponente der Mensch-Computer-Interaktion und ein zunehmend wichtiges Frontend für LLM-basierte Assistenten und Agenten. Die meisten aktuellen ASR-Systeme folgen jedoch weiterhin einem Ein-Pass-Paradigma, das schlecht mit der menschlichen Kommunikation übereinstimmt, bei der Missverständnisse durch iterative Klärung und Verfeinerung behoben werden. Diese Diskrepanz erschwert die Korrektur bedeutungskritischer Fehler, sobald sie auftreten. Token-basierte Metriken wie WER oder CER können ein solches Problem nicht angemessen widerspiegeln. Um diese Einschränkungen zu beheben, formulieren wir interaktive ASR als eine mehrschrittige Verfeinerungsaufgabe und schlagen Agentic ASR vor, ein Closed-Loop-Framework, das ein Ein-Pass-ASR-Frontend mit semantischer Korrektur, Absichtslenkung und reasoning-basierter Bearbeitung kombiniert. Darüber hinaus führen wir die Sentence-level Semantic Error Rate (S^2ER) ein, eine LLM-basierte semantische Bewertungsmetrik, zusammen mit einem interaktiven Simulationssystem für skalierbares und reproduzierbares Benchmarking. Experimente mit mehrsprachigen, eigennameintensiven und Code-Switching-Benchmarks zeigen, dass iterative Interaktion semantische Fehler konsistent reduziert, mit wesentlich größeren Verbesserungen bei S^2ER als bei konventionellen token-basierten Metriken. Mensch-KI-Abgleich und Ablationsstudien bestätigen zudem die Zuverlässigkeit des semantischen Richters und die Robustheit des vorgeschlagenen Frameworks. Der Code ist verfügbar unter: https://interactiveasr.github.io/ und die Live-Demo unter: https://i-asr.sjtuxlance.com/

English

Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate Interactive ASR as a multi-turn refinement task and propose Agentic ASR, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the Sentence-level Semantic Error Rate (S^2ER), an LLM-based semantic evaluation metric, together with an Interactive Simulation System for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in S^2ER than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/