MooER: LLM-gebaseerde spraakherkenning en vertaalmodellen van Moore Threads
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads
August 9, 2024
Auteurs: Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
cs.AI
Samenvatting
In dit artikel presenteren we MooER, een op LLM gebaseerd grootschalig model voor automatische spraakherkenning (ASR) / automatische spraakvertaling (AST) van Moore Threads. Voor de training wordt gebruikgemaakt van een pseudo-gelabelde dataset van 5000 uur, bestaande uit open source en zelf verzamelde spraakdata. We behalen prestaties die vergelijkbaar zijn met andere open source modellen die getraind zijn met tot honderdduizenden uren aan gelabelde spraakdata. Tegelijkertijd suggereren experimenten uitgevoerd op de Covost2 Zh2en-testset dat ons model andere open source Speech LLMs overtreft. Een BLEU-score van 25,2 kan worden behaald. De belangrijkste bijdragen van dit artikel zijn als volgt samengevat. Ten eerste presenteert dit artikel een trainingsstrategie voor encoders en LLMs voor spraakgerelateerde taken (inclusief ASR en AST) met behulp van een kleine hoeveelheid pseudo-gelabelde data, zonder extra handmatige annotatie en selectie. Ten tweede geven we onze ASR- en AST-modellen vrij en zijn we van plan onze trainingscode en strategie in de nabije toekomst open source te maken. Bovendien is het de bedoeling om later een model dat getraind is op 8wh-schaal trainingsdata vrij te geven.
English
In this paper, we present MooER, a LLM-based large-scale automatic speech
recognition (ASR) / automatic speech translation (AST) model of Moore Threads.
A 5000h pseudo labeled dataset containing open source and self collected speech
data is used for training. We achieve performance comparable to other open
source models trained with up to hundreds of thousands of hours of labeled
speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest
that our model outperforms other open source Speech LLMs. A BLEU score of 25.2
can be obtained. The main contributions of this paper are summarized as
follows. First, this paper presents a training strategy for encoders and LLMs
on speech related tasks (including ASR and AST) using a small size of pseudo
labeled data without any extra manual annotation and selection. Second, we
release our ASR and AST models and plan to open-source our training code and
strategy in the near future. Moreover, a model trained on 8wh scale training
data is planned to be released later on.