ChatPaper.aiChatPaper

NLE: Riconoscimento Vocale Automatico basato su LLM Non Autoregressivo tramite Modifica di Trascrizioni

NLE: Non-autoregressive LLM-based ASR by Transcript Editing

March 9, 2026
Autori: Avihu Dekel, Samuel Thomas, Takashi Fukada, George Saon
cs.AI

Abstract

Sebbene i sistemi di riconoscimento vocale basati su LLM autoregressivi (AR) raggiungano un'elevata accuratezza, la loro decodifica sequenziale limita il parallelismo e comporta un'elevata latenza. Proponiamo NLE, un approccio non autoregressivo (NAR) che formula il riconoscimento vocale come un'editing condizionato del trascritto, consentendo una previsione completamente parallela. NLE estrae embedding acustici e un'ipotesi iniziale da un codificatore vocale preaddestrato, per poi affinare l'ipotesi utilizzando un editor LLM bidirezionale addestrato con un obiettivo di allineamento latente. Una strategia di padding intercalato sfrutta il bias di mappatura identitaria dei Transformer, permettendo al modello di concentrarsi sulle correzioni piuttosto che sulla ricostruzione completa. Sulla Open ASR leaderboard, NLE++ raggiunge una WER media del 5,67% con un RTFx (fattore di tempo reale inverso) di 1630. In scenari con singola espressione, NLE raggiunge un'accelerazione di 27x rispetto al baseline AR, rendendolo adatto per applicazioni in tempo reale.
English
While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.
PDF212March 26, 2026