ChatPaper.aiChatPaper

OWSM v3.1: E-Branchformer 기반의 더 나은 성능과 빠른 속도의 오픈 Whisper 스타일 음성 모델

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

January 30, 2024
저자: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI

초록

최근 연구들은 투명성과 개방 과학을 촉진하기 위해 완전히 개방된 기초 모델을 주장해 왔습니다. 이를 위한 첫 번째 단계로, Open Whisper-style Speech Model(OWSM)은 공개적으로 이용 가능한 데이터와 오픈소스 툴킷을 사용하여 OpenAI의 Whisper를 재현했습니다. Whisper를 재현하는 목표로, 이전의 OWSM v1부터 v3 모델들은 여전히 Transformer를 기반으로 하고 있었는데, 이는 다른 최첨단 음성 인코더에 비해 성능이 떨어질 수 있는 원인이 되었습니다. 본 연구에서는 추가 학습 데이터 없이 OWSM의 성능과 효율성을 개선하는 것을 목표로 합니다. 우리는 두 가지 규모, 즉 100M과 1B의 E-Branchformer 기반 OWSM v3.1 모델을 제안합니다. 1B 모델은 공개된 E-Branchformer 기반 음성 모델 중 가장 큰 규모이며, 대부분의 평가 벤치마크에서 이전 OWSM v3을 능가하면서 최대 25% 더 빠른 추론 속도를 보여줍니다. 우리는 데이터 준비 스크립트, 사전 학습된 모델 및 학습 로그를 공개적으로 제공합니다.
English
Recent studies have advocated for fully open foundation models to promote transparency and open science. As an initial step, the Open Whisper-style Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data and open-source toolkits. With the aim of reproducing Whisper, the previous OWSM v1 through v3 models were still based on Transformer, which might lead to inferior performance compared to other state-of-the-art speech encoders. In this work, we aim to improve the performance and efficiency of OWSM without extra training data. We present E-Branchformer based OWSM v3.1 models at two scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based speech model that has been made publicly available. It outperforms the previous OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to 25% faster inference speed. We publicly release the data preparation scripts, pre-trained models and training logs.
PDF141December 15, 2024