MooER: Модели распознавания речи и перевода на основе LLM от Moore Threads
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads
August 9, 2024
Авторы: Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
cs.AI
Аннотация
В данной статье мы представляем MooER - модель автоматического распознавания речи (ASR) / автоматического перевода речи (AST) на основе LLM от Moore Threads. Для обучения использовался псевдо-размеченный набор данных объемом 5000 часов, содержащий открытые и собранные самостоятельно речевые данные. Мы достигли производительности, сопоставимой с другими открытыми моделями, обученными на сотни тысяч часов размеченных речевых данных. Тем временем эксперименты, проведенные на тестовом наборе данных Covost2 Zh2en, показывают, что наша модель превосходит другие открытые речевые LLM. Мы получили оценку BLEU в 25,2. Основные вклады данной статьи можно свести к следующему. Во-первых, представлена стратегия обучения для кодировщиков и LLM на задачах, связанных с речью (включая ASR и AST), с использованием небольшого объема псевдо-размеченных данных без дополнительной ручной аннотации и выбора. Во-вторых, мы выпустили наши модели ASR и AST и планируем в ближайшем будущем предоставить наш код и стратегию обучения в открытый доступ. Более того, модель, обученная на данных обучения масштабом 8 часов, планируется выпустить позже.
English
In this paper, we present MooER, a LLM-based large-scale automatic speech
recognition (ASR) / automatic speech translation (AST) model of Moore Threads.
A 5000h pseudo labeled dataset containing open source and self collected speech
data is used for training. We achieve performance comparable to other open
source models trained with up to hundreds of thousands of hours of labeled
speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest
that our model outperforms other open source Speech LLMs. A BLEU score of 25.2
can be obtained. The main contributions of this paper are summarized as
follows. First, this paper presents a training strategy for encoders and LLMs
on speech related tasks (including ASR and AST) using a small size of pseudo
labeled data without any extra manual annotation and selection. Second, we
release our ASR and AST models and plan to open-source our training code and
strategy in the near future. Moreover, a model trained on 8wh scale training
data is planned to be released later on.Summary
AI-Generated Summary