NLE: Reconhecimento de Fala Baseado em LLM Não Autoregressivo por Edição de Transcrição

Resumo

Embora os sistemas de ASR baseados em LLM autoregressivos (AR) atinjam alta precisão, sua decodificação sequencial limita o paralelismo e incorre em alta latência. Propomos o NLE, uma abordagem não autoregressiva (NAR) que formula o reconhecimento de fala como uma edição condicional de transcrição, permitindo uma predição totalmente paralela. O NLE extrai *embeddings* acústicos e uma hipótese inicial de um codificador de fala pré-treinado e, em seguida, refina a hipótese usando um editor LLM bidirecional treinado com um objetivo de alinhamento latente. Uma estratégia de preenchimento intercalado explora o viés de mapeamento de identidade dos Transformers, permitindo que o modelo se concentre em correções em vez de reconstrução completa. No *leaderboard* Open ASR, o NLE++ alcança 5,67% de WER médio com um RTFx (fator de tempo real inverso) de 1630. Em cenários de enunciado único, o NLE alcança uma aceleração de 27x em relação à linha de base AR, tornando-o adequado para aplicações em tempo real.

English

While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.