NLE : Reconnaissance automatique de la parole basée sur des LLM non autorégressifs par édition de transcription

Résumé

Bien que les systèmes de reconnaissance automatique de la parole (ASR) basés sur des modèles de langage de grande taille (LLM) autorégressifs (AR) atteignent une forte précision, leur décodage séquentiel limite le parallélisme et engendre une latence élevée. Nous proposons NLE, une approche non autorégressive (NAR) qui formule la reconnaissance vocale comme une édition conditionnelle de transcription, permettant une prédiction entièrement parallèle. NLE extrait des embeddings acoustiques et une hypothèse initiale d'un encodeur de parole pré-entraîné, puis affine l'hypothèse à l'aide d'un éditeur LLM bidirectionnel entraîné avec un objectif d'alignement latent. Une stratégie de remplissage entrelacé exploite le biais de mapping d'identité des Transformers, permettant au modèle de se concentrer sur les corrections plutôt que sur une reconstruction complète. Sur le classement Open ASR, NLE++ atteint un taux d'erreur sur les mots (WER) moyen de 5,67 % avec un RTFx (facteur de temps réel inverse) de 1630. Dans des scénarios à énoncé unique, NLE réalise une accélération de 27x par rapport à la baseline AR, le rendant adapté aux applications en temps réel.

English

While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.

NLE : Reconnaissance automatique de la parole basée sur des LLM non autorégressifs par édition de transcription

NLE: Non-autoregressive LLM-based ASR by Transcript Editing

Résumé

Support