Масштабное переранжирование с использованием языковых моделей для данных длинной формы
Large-scale Language Model Rescoring on Long-form Data
June 13, 2023
Авторы: Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana Ramabhadran, Pedro J. Moreno, Michael Riley
cs.AI
Аннотация
В данной работе мы исследуем влияние крупномасштабных языковых моделей (LLM) на автоматическое распознавание речи (ASR) в видео с YouTube, которые мы используем в качестве источника для длинных форм ASR. Мы демонстрируем относительное снижение частоты ошибок на словах (WER) до 8% для тестовых наборов длинных форм ASR на американском английском (en-us) и кодово-переключенном индийском английском (en-in), а также относительное снижение частоты ошибок на ключевых терминах (STER) до 30% по сравнению с сильным базовым подходом первого прохода, использующим языковую модель на основе максимальной энтропии. Улучшенная обработка решеток, которая приводит к решетке с правильной (не древовидной) топологией ориентированного графа и учитывает контекст из лучшей гипотезы предыдущих сегментов, дает значительные преимущества при повторном оценивании с использованием LLM. Мы также обнаруживаем, что улучшение производительности от комбинации LLM, обученных на огромных объемах доступных данных (таких как C4), и традиционных нейронных языковых моделей является аддитивным и значительно превосходит сильный базовый подход первого прохода с языковой моделью на основе максимальной энтропии.
English
In this work, we study the impact of Large-scale Language Models (LLM) on
Automated Speech Recognition (ASR) of YouTube videos, which we use as a source
for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error
Eate (WER) on US English (en-us) and code-switched Indian English (en-in)
long-form ASR test sets and a reduction of up to 30\% relative on Salient Term
Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy
based language model. Improved lattice processing that results in a lattice
with a proper (non-tree) digraph topology and carrying context from the 1-best
hypothesis of the previous segment(s) results in significant wins in rescoring
with LLMs. We also find that the gains in performance from the combination of
LLMs trained on vast quantities of available data (such as C4) and conventional
neural LMs is additive and significantly outperforms a strong first-pass
baseline with a maximum entropy LM.