Vers une reconnaissance vocale interactive de type humain avec correction agentive et évaluation sémantique

Résumé

La reconnaissance automatique de la parole (RAP) est un composant central de l'interaction homme-machine et un frontal de plus en plus important pour les assistants et agents basés sur les grands modèles de langage (LLM). Cependant, la plupart des systèmes de RAP actuels suivent encore un paradigme à passage unique, qui s'aligne mal avec la communication humaine, où les malentendus sont résolus par clarification et raffinement itératifs. Ce décalage rend difficile la correction des erreurs critiques pour le sens une fois qu'elles se sont produites. Par ailleurs, les métriques au niveau des tokens, telles que le Taux d'Erreur de Mots (TEM) ou le Taux d'Erreur de Caractères (TEC), ne peuvent pas refléter adéquatement ce problème. Pour pallier ces limitations, nous formulons la RAP Interactive comme une tâche de raffinement multi-tour et proposons Agentic RAP, un cadre en boucle fermée qui combine un frontal de RAP à passage unique avec une correction sémantique, un routage d'intention et une édition basée sur le raisonnement. Nous introduisons également le Taux d'Erreur Sémantique au Niveau de la Phrase (S²ER), une métrique d'évaluation sémantique basée sur un LLM, ainsi qu'un Système de Simulation Interactive pour un benchmarking évolutif et reproductible. Les expériences sur des benchmarks multilingues, intensifs en entités nommées et en alternance codique montrent que l'interaction itérative réduit systématiquement les erreurs sémantiques, avec des gains beaucoup plus importants en S²ER qu'avec les métriques conventionnelles au niveau des tokens. Des études d'alignement humain-IA et d'ablation valident davantage la fiabilité du juge sémantique et la robustesse du cadre proposé. Le code est disponible à l'adresse : https://interactiveasr.github.io/ et la démonstration en direct est accessible à https://i-asr.sjtuxlance.com/.

English

Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate Interactive ASR as a multi-turn refinement task and propose Agentic ASR, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the Sentence-level Semantic Error Rate (S^2ER), an LLM-based semantic evaluation metric, together with an Interactive Simulation System for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in S^2ER than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/