MooER: 무어 스레드로부터의 LLM 기반 음성 인식 및 번역 모델
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads
August 9, 2024
저자: Junhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
cs.AI
초록
본 논문에서는 Moore Threads의 MooER, LLM 기반 대규모 자동 음성 인식 (ASR) / 자동 음성 번역 (AST) 모델을 제시합니다. 오픈 소스 및 자체 수집 음성 데이터가 포함된 5000시간의 가짜 레이블 데이터셋을 학습에 활용했습니다. 수백만 시간의 레이블된 음성 데이터로 훈련된 다른 오픈 소스 모델과 유사한 성능을 달성했습니다. 한편, Covost2 Zh2en 테스트 세트에서 수행된 실험 결과, 우리 모델이 다른 오픈 소스 음성 LLMs보다 우수한 성과를 보였습니다. BLEU 점수는 25.2를 얻을 수 있었습니다. 본 논문의 주요 기여는 다음과 같이 요약됩니다. 첫째, 본 논문은 소량의 가짜 레이블 데이터를 활용하여 음성 관련 작업 (ASR 및 AST 포함)에 대한 인코더 및 LLM의 훈련 전략을 제시합니다. 추가적인 수동 주석 및 선택 없이 진행되었습니다. 둘째, 우리는 ASR 및 AST 모델을 공개하고 향후 교육 코드와 전략을 오픈 소스로 공개할 계획입니다. 게다가, 8wh 규모의 훈련 데이터로 훈련된 모델이 나중에 공개될 예정입니다.
English
In this paper, we present MooER, a LLM-based large-scale automatic speech
recognition (ASR) / automatic speech translation (AST) model of Moore Threads.
A 5000h pseudo labeled dataset containing open source and self collected speech
data is used for training. We achieve performance comparable to other open
source models trained with up to hundreds of thousands of hours of labeled
speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest
that our model outperforms other open source Speech LLMs. A BLEU score of 25.2
can be obtained. The main contributions of this paper are summarized as
follows. First, this paper presents a training strategy for encoders and LLMs
on speech related tasks (including ASR and AST) using a small size of pseudo
labeled data without any extra manual annotation and selection. Second, we
release our ASR and AST models and plan to open-source our training code and
strategy in the near future. Moreover, a model trained on 8wh scale training
data is planned to be released later on.Summary
AI-Generated Summary