ChatPaper.aiChatPaper

MooER: Modelos de Reconocimiento y Traducción de Voz basados en LLM de Moore Threads

MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

August 9, 2024
Autores: Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
cs.AI

Resumen

En este documento, presentamos MooER, un modelo de reconocimiento automático del habla (ASR) / traducción automática del habla (AST) a gran escala basado en LLM de Moore Threads. Se utiliza un conjunto de datos pseudoetiquetado de 5000 horas que contiene datos de habla de código abierto y recopilados por nosotros mismos para el entrenamiento. Logramos un rendimiento comparable a otros modelos de código abierto entrenados con cientos de miles de horas de datos de habla etiquetados. Mientras tanto, los experimentos realizados en el conjunto de pruebas Covost2 Zh2en sugieren que nuestro modelo supera a otros LLM de habla de código abierto. Se puede obtener un puntaje BLEU de 25.2. Las principales contribuciones de este documento se resumen de la siguiente manera. Primero, este documento presenta una estrategia de entrenamiento para codificadores y LLM en tareas relacionadas con el habla (incluido ASR y AST) utilizando una pequeña cantidad de datos pseudoetiquetados sin ninguna anotación manual adicional y selección. En segundo lugar, liberamos nuestros modelos de ASR y AST y planeamos hacer público nuestro código y estrategia de entrenamiento en un futuro cercano. Además, está previsto lanzar más adelante un modelo entrenado en datos de entrenamiento a escala de 8wh.
English
In this paper, we present MooER, a LLM-based large-scale automatic speech recognition (ASR) / automatic speech translation (AST) model of Moore Threads. A 5000h pseudo labeled dataset containing open source and self collected speech data is used for training. We achieve performance comparable to other open source models trained with up to hundreds of thousands of hours of labeled speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest that our model outperforms other open source Speech LLMs. A BLEU score of 25.2 can be obtained. The main contributions of this paper are summarized as follows. First, this paper presents a training strategy for encoders and LLMs on speech related tasks (including ASR and AST) using a small size of pseudo labeled data without any extra manual annotation and selection. Second, we release our ASR and AST models and plan to open-source our training code and strategy in the near future. Moreover, a model trained on 8wh scale training data is planned to be released later on.

Summary

AI-Generated Summary

PDF82November 28, 2024