Hacia un Reconocimiento de Voz Interactivo de Tipo Humano con Corrección Agéntica y Evaluación Semántica

Resumen

El reconocimiento automático del habla (ASR) es un componente central de la interacción humano-computadora y un front-end cada vez más importante para asistentes y agentes basados en modelos de lenguaje grandes (LLM). Sin embargo, la mayoría de los sistemas ASR actuales aún siguen un paradigma de una sola pasada, que está poco alineado con la comunicación humana, donde los malentendidos se resuelven mediante aclaraciones y refinamientos iterativos. Esta discrepancia dificulta la corrección de errores críticos para el significado una vez que ocurren. Al mismo tiempo, métricas a nivel de token como la tasa de error de palabras (WER) o la tasa de error de caracteres (CER) no reflejan adecuadamente este problema. Para abordar estas limitaciones, formulamos el ASR Interactivo como una tarea de refinamiento en múltiples turnos y proponemos ASR Agéntico (Agentic ASR), un marco de bucle cerrado que combina un front-end ASR de una sola pasada con corrección semántica, enrutamiento de intenciones y edición basada en razonamiento. Además, introducimos la Tasa de Error Semántico a Nivel de Oración (S^2ER), una métrica de evaluación semántica basada en LLM, junto con un Sistema de Simulación Interactiva para la evaluación comparativa escalable y reproducible. Experimentos en puntos de referencia multilingües, intensivos en entidades nombradas y de cambio de código muestran que la interacción iterativa reduce consistentemente los errores semánticos, con mejoras mucho mayores en S^2ER que en las métricas convencionales a nivel de token. Los estudios de alineación humano-IA y ablación validan adicionalmente la confiabilidad del juez semántico y la robustez del marco propuesto. El código está disponible en: https://interactiveasr.github.io/ y la demo en vivo en: https://i-asr.sjtuxlance.com/

English

Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate Interactive ASR as a multi-turn refinement task and propose Agentic ASR, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the Sentence-level Semantic Error Rate (S^2ER), an LLM-based semantic evaluation metric, together with an Interactive Simulation System for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in S^2ER than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/