ChatPaper.aiChatPaper

MooER: Modelos de Reconhecimento e Tradução de Fala baseados em LLM de Moore Threads

MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

August 9, 2024
Autores: Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
cs.AI

Resumo

Neste artigo, apresentamos o MooER, um modelo de reconhecimento automático de fala (ASR) / tradução automática de fala (AST) em larga escala baseado em LLM da Moore Threads. Um conjunto de dados pseudo-rotulado de 5000 horas contendo dados de fala de código aberto e coletados internamente é utilizado para o treinamento. Alcançamos desempenho comparável a outros modelos de código aberto treinados com centenas de milhares de horas de dados de fala rotulados. Enquanto isso, experimentos realizados no conjunto de testes Covost2 Zh2en sugerem que nosso modelo supera outros LLMs de Fala de código aberto. Um escore BLEU de 25.2 pode ser obtido. As principais contribuições deste artigo são resumidas da seguinte forma. Primeiramente, este artigo apresenta uma estratégia de treinamento para codificadores e LLMs em tarefas relacionadas à fala (incluindo ASR e AST) usando um pequeno conjunto de dados pseudo-rotulados sem nenhuma anotação manual ou seleção extra. Em segundo lugar, disponibilizamos nossos modelos ASR e AST e planejamos tornar nosso código e estratégia de treinamento de código aberto em um futuro próximo. Além disso, um modelo treinado em uma escala de treinamento de 8wh está planejado para ser disponibilizado posteriormente.
English
In this paper, we present MooER, a LLM-based large-scale automatic speech recognition (ASR) / automatic speech translation (AST) model of Moore Threads. A 5000h pseudo labeled dataset containing open source and self collected speech data is used for training. We achieve performance comparable to other open source models trained with up to hundreds of thousands of hours of labeled speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest that our model outperforms other open source Speech LLMs. A BLEU score of 25.2 can be obtained. The main contributions of this paper are summarized as follows. First, this paper presents a training strategy for encoders and LLMs on speech related tasks (including ASR and AST) using a small size of pseudo labeled data without any extra manual annotation and selection. Second, we release our ASR and AST models and plan to open-source our training code and strategy in the near future. Moreover, a model trained on 8wh scale training data is planned to be released later on.

Summary

AI-Generated Summary

PDF82November 28, 2024