ChatPaper.aiChatPaper

MooER: Modelli di Riconoscimento Vocale e Traduzione basati su LLM da Moore Threads

MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

August 9, 2024
Autori: Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
cs.AI

Abstract

In questo articolo presentiamo MooER, un modello su larga scala di riconoscimento automatico del parlato (ASR) e traduzione automatica del parlato (AST) basato su LLM (Large Language Model) sviluppato da Moore Threads. Per l'addestramento è stato utilizzato un dataset pseudo-etichettato di 5000 ore, contenente dati vocali open source e raccolti autonomamente. Raggiungiamo prestazioni paragonabili ad altri modelli open source addestrati con centinaia di migliaia di ore di dati vocali etichettati. Nel frattempo, gli esperimenti condotti sul testset Covost2 Zh2en suggeriscono che il nostro modello supera altri Speech LLM open source, ottenendo un punteggio BLEU di 25.2. I principali contributi di questo articolo sono riassunti come segue. In primo luogo, questo articolo presenta una strategia di addestramento per encoder e LLM su task legati al parlato (inclusi ASR e AST) utilizzando una piccola quantità di dati pseudo-etichettati, senza alcuna annotazione o selezione manuale aggiuntiva. In secondo luogo, rilasciamo i nostri modelli ASR e AST e prevediamo di rendere open source il nostro codice e la nostra strategia di addestramento nel prossimo futuro. Inoltre, è previsto il rilascio successivo di un modello addestrato su dati di addestramento di scala 8wh.
English
In this paper, we present MooER, a LLM-based large-scale automatic speech recognition (ASR) / automatic speech translation (AST) model of Moore Threads. A 5000h pseudo labeled dataset containing open source and self collected speech data is used for training. We achieve performance comparable to other open source models trained with up to hundreds of thousands of hours of labeled speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest that our model outperforms other open source Speech LLMs. A BLEU score of 25.2 can be obtained. The main contributions of this paper are summarized as follows. First, this paper presents a training strategy for encoders and LLMs on speech related tasks (including ASR and AST) using a small size of pseudo labeled data without any extra manual annotation and selection. Second, we release our ASR and AST models and plan to open-source our training code and strategy in the near future. Moreover, a model trained on 8wh scale training data is planned to be released later on.
PDF82November 28, 2024