NLE: Нерекуррентная ASR на основе языковых моделей с редактированием транскрипта
NLE: Non-autoregressive LLM-based ASR by Transcript Editing
March 9, 2026
Авторы: Avihu Dekel, Samuel Thomas, Takashi Fukada, George Saon
cs.AI
Аннотация
Хотя авторегрессионные (AR) системы ASR на основе больших языковых моделей (LLM) демонстрируют высокую точность, их последовательное декодирование ограничивает параллелизм и приводит к высокой задержке. Мы предлагаем NLE, неавторегрессионный (NAR) подход, который формулирует распознавание речи как условное редактирование транскрипта, обеспечивая полностью параллельное предсказание. NLE извлекает акустические эмбеддинги и первоначальную гипотезу из предобученного речевого энкодера, а затем уточняет гипотезу с помощью двунаправленного LLM-редактора, обученного с целью латентного выравнивания. Стратегия чередующегося дополнения (interleaved padding) использует склонность трансформеров к тождественным отображениям, позволяя модели фокусироваться на исправлениях, а не на полной реконструкции. На лидерборде Open ASR модель NLE++ достигает среднего WER 5.67% с RTFx (обратный коэффициент реального времени) 1630. В сценариях с одиночными высказываниями NLE обеспечивает 27-кратное ускорение по сравнению с AR-базлином, что делает его пригодным для приложений реального времени.
English
While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.