ChatPaper.aiChatPaper

NLE: Niet-autoregressieve ASR op basis van grote taalmodel door transcriptbewerking

NLE: Non-autoregressive LLM-based ASR by Transcript Editing

March 9, 2026
Auteurs: Avihu Dekel, Samuel Thomas, Takashi Fukada, George Saon
cs.AI

Samenvatting

Hoewel op autoregressie (AR) gebaseerde ASR-systemen met grote taalmodellen een hoge nauwkeurigheid bereiken, beperkt hun sequentiële decodering de parallelisatie en veroorzaakt het hoge latentie. Wij stellen NLE voor, een niet-autoregressieve (NAR) benadering die spraakherkenning formuleert als conditionele transcriptbewerking, wat volledig parallelle voorspelling mogelijk maakt. NLE extraheert akoestische embedding en een initiële hypothese van een voorgetrainde spraakencoder, en verfijnt vervolgens de hypothese met een bidirectionele LLM-editor die is getraind met een latent aligneringsdoel. Een intergeleaveerde opvulstrategie benut de identiteitsafbeeldingsbias van Transformers, waardoor het model zich kan concentreren op correcties in plaats van volledige reconstructie. Op het Open ASR-leaderboard behaalt NLE++ een gemiddelde WER van 5,67% met een RTFx (inverse real-time factor) van 1630. In scenario's met enkele uitingen bereikt NLE een 27x versnelling ten opzichte van de AR-baseline, wat het geschikt maakt voor real-time toepassingen.
English
While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.
PDF212March 26, 2026