MooER : Modèles de reconnaissance vocale et de traduction basés sur LLM de Moore Threads
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads
August 9, 2024
Auteurs: Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
cs.AI
Résumé
Dans cet article, nous présentons MooER, un modèle de reconnaissance automatique de la parole (ASR) et de traduction automatique de la parole (AST) à grande échelle basé sur un LLM (Large Language Model) développé par Moore Threads. Un ensemble de données pseudo-étiquetées de 5000 heures, comprenant des données vocales open source et collectées par nos soins, est utilisé pour l'entraînement. Nous obtenons des performances comparables à celles d'autres modèles open source entraînés avec des centaines de milliers d'heures de données vocales étiquetées. Par ailleurs, les expériences menées sur le jeu de test Covost2 Zh2en indiquent que notre modèle surpasse les autres LLM vocaux open source, avec un score BLEU de 25,2. Les principales contributions de cet article sont résumées comme suit. Premièrement, nous présentons une stratégie d'entraînement pour les encodeurs et les LLM sur des tâches liées à la parole (incluant l'ASR et l'AST) en utilisant un petit volume de données pseudo-étiquetées, sans aucune annotation ou sélection manuelle supplémentaire. Deuxièmement, nous publions nos modèles ASR et AST et prévoyons de rendre open source notre code d'entraînement et notre stratégie dans un avenir proche. De plus, un modèle entraîné sur un ensemble de données de 8wh est prévu pour être publié ultérieurement.
English
In this paper, we present MooER, a LLM-based large-scale automatic speech
recognition (ASR) / automatic speech translation (AST) model of Moore Threads.
A 5000h pseudo labeled dataset containing open source and self collected speech
data is used for training. We achieve performance comparable to other open
source models trained with up to hundreds of thousands of hours of labeled
speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest
that our model outperforms other open source Speech LLMs. A BLEU score of 25.2
can be obtained. The main contributions of this paper are summarized as
follows. First, this paper presents a training strategy for encoders and LLMs
on speech related tasks (including ASR and AST) using a small size of pseudo
labeled data without any extra manual annotation and selection. Second, we
release our ASR and AST models and plan to open-source our training code and
strategy in the near future. Moreover, a model trained on 8wh scale training
data is planned to be released later on.Summary
AI-Generated Summary