ChatPaper.aiChatPaper

NLE: Nicht-autoregressive LLM-basierte automatische Spracherkennung durch Transkriptbearbeitung

NLE: Non-autoregressive LLM-based ASR by Transcript Editing

March 9, 2026
Autoren: Avihu Dekel, Samuel Thomas, Takashi Fukada, George Saon
cs.AI

Zusammenfassung

Während autoregressive (AR) auf LLM basierende ASR-Systeme eine hohe Genauigkeit erreichen, schränkt ihr sequenzielles Decodieren die Parallelisierbarkeit ein und verursacht hohe Latenz. Wir schlagen NLE vor, einen nicht-autoregressiven (NAR) Ansatz, der Spracherkennung als bedingte Transkriptbearbeitung formuliert und eine vollständig parallele Vorhersage ermöglicht. NLE extrahiert akustische Embeddings und eine initiale Hypothese aus einem vortrainierten Sprach-Encoder und verfeinert die Hypothese anschließend mit einem bidirektionalen LLM-Editor, der mit einem latenten Alignment-Ziel trainiert wird. Eine Strategie mit verschachteltem Padding nutzt die Bias für Identitätsabbildungen in Transformern aus, sodass sich das Modell auf Korrekturen statt auf vollständige Rekonstruktion konzentriert. Auf dem Open ASR Leaderboard erreicht NLE++ eine durchschnittliche WER von 5,67 % bei einem RTFx (inverser Echtzeitfaktor) von 1630. In Einzeläußerungsszenarien erzielt NLE eine 27-fache Beschleunigung gegenüber der AR-Basislinie, was es für Echtzeitanwendungen geeignet macht.
English
While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.
PDF192March 16, 2026