OWSM v3.1: Modelli vocali open di tipo Whisper migliori e più veloci basati su E-Branchformer
OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer
January 30, 2024
Autori: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI
Abstract
Studi recenti hanno sostenuto l'uso di modelli di base completamente aperti per promuovere la trasparenza e la scienza aperta. Come primo passo, il modello di riconoscimento vocale Open Whisper-style Speech Model (OWSM) ha riprodotto il Whisper di OpenAI utilizzando dati pubblicamente disponibili e toolkit open-source. Con l'obiettivo di replicare Whisper, i precedenti modelli OWSM v1 fino a v3 si basavano ancora su Transformer, il che potrebbe portare a prestazioni inferiori rispetto ad altri encoder vocali all'avanguardia. In questo lavoro, miriamo a migliorare le prestazioni e l'efficienza di OWSM senza dati di addestramento aggiuntivi. Presentiamo i modelli OWSM v3.1 basati su E-Branchformer in due dimensioni, ovvero 100M e 1B. Il modello da 1B è il più grande modello vocale basato su E-Branchformer reso pubblicamente disponibile. Supera il precedente OWSM v3 nella maggior parte dei benchmark di valutazione, dimostrando al contempo una velocità di inferenza fino al 25% più rapida. Rilasciamo pubblicamente gli script di preparazione dei dati, i modelli pre-addestrati e i log di addestramento.
English
Recent studies have advocated for fully open foundation models to promote
transparency and open science. As an initial step, the Open Whisper-style
Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data
and open-source toolkits. With the aim of reproducing Whisper, the previous
OWSM v1 through v3 models were still based on Transformer, which might lead to
inferior performance compared to other state-of-the-art speech encoders. In
this work, we aim to improve the performance and efficiency of OWSM without
extra training data. We present E-Branchformer based OWSM v3.1 models at two
scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based
speech model that has been made publicly available. It outperforms the previous
OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to
25% faster inference speed. We publicly release the data preparation scripts,
pre-trained models and training logs.