ChatPaper.aiChatPaper

NLE: Reconocimiento Automático del Habla Basado en Modelos de Lenguaje No Autoregresivos mediante Edición de Transcripciones

NLE: Non-autoregressive LLM-based ASR by Transcript Editing

March 9, 2026
Autores: Avihu Dekel, Samuel Thomas, Takashi Fukada, George Saon
cs.AI

Resumen

Si bien los sistemas de reconocimiento automático del habla (ASR) basados en modelos de lenguaje grandes (LLM) autoregresivos (AR) logran una alta precisión, su decodificación secuencial limita el paralelismo e incurre en una alta latencia. Proponemos NLE, un enfoque no autoregresivo (NAR) que formula el reconocimiento del habla como una edición condicional de la transcripción, permitiendo una predicción completamente paralela. NLE extrae *embeddings* acústicos y una hipótesis inicial de un codificador de habla preentrenado, y luego refina la hipótesis utilizando un editor LLM bidireccional entrenado con un objetivo de alineación latente. Una estrategia de relleno intercalado explota el sesgo de mapeo de identidad de los Transformers, permitiendo que el modelo se centre en correcciones en lugar de en una reconstrucción completa. En el ranking Open ASR, NLE++ logra un WER promedio del 5.67% con un RTFx (factor de tiempo real inverso) de 1630. En escenarios de enunciado único, NLE logra una aceleración de 27x sobre la línea base AR, haciéndolo adecuado para aplicaciones en tiempo real.
English
While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.
PDF192March 16, 2026