ChatPaper.aiChatPaper

MooER: LLM-basierte Spracherkennungs- und Übersetzungsmodelle von Moore Threads

MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

August 9, 2024
Autoren: Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
cs.AI

Zusammenfassung

In diesem Paper präsentieren wir MooER, ein auf LLM basierendes automatisches Spracherkennungs- (ASR) / automatisches Sprachübersetzungsmodell (AST) von Moore Threads im großen Maßstab. Ein 5000 Stunden umfassender Pseudo-gelabelter Datensatz, der Open-Source- und selbst gesammelte Sprachdaten enthält, wird für das Training verwendet. Wir erzielen eine vergleichbare Leistung wie andere Open-Source-Modelle, die mit Hunderttausenden von Stunden gelabelten Sprachdaten trainiert wurden. Gleichzeitig legen Experimente mit dem Covost2 Zh2en-Testdatensatz nahe, dass unser Modell andere Open-Source-Sprach-LLMs übertrifft. Ein BLEU-Score von 25,2 kann erreicht werden. Die Hauptbeiträge dieses Papers werden wie folgt zusammengefasst. Erstens präsentiert dieses Paper eine Trainingsstrategie für Encoder und LLMs bei sprachbezogenen Aufgaben (einschließlich ASR und AST) unter Verwendung einer geringen Menge an pseudo-gelabelten Daten ohne zusätzliche manuelle Annotation und Auswahl. Zweitens veröffentlichen wir unsere ASR- und AST-Modelle und planen, unseren Trainingscode und unsere Strategie in naher Zukunft Open-Source zu machen. Darüber hinaus ist geplant, ein Modell, das mit 8 Stunden Trainingsskala trainiert wurde, später zu veröffentlichen.
English
In this paper, we present MooER, a LLM-based large-scale automatic speech recognition (ASR) / automatic speech translation (AST) model of Moore Threads. A 5000h pseudo labeled dataset containing open source and self collected speech data is used for training. We achieve performance comparable to other open source models trained with up to hundreds of thousands of hours of labeled speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest that our model outperforms other open source Speech LLMs. A BLEU score of 25.2 can be obtained. The main contributions of this paper are summarized as follows. First, this paper presents a training strategy for encoders and LLMs on speech related tasks (including ASR and AST) using a small size of pseudo labeled data without any extra manual annotation and selection. Second, we release our ASR and AST models and plan to open-source our training code and strategy in the near future. Moreover, a model trained on 8wh scale training data is planned to be released later on.

Summary

AI-Generated Summary

PDF82November 28, 2024