ChatPaper.aiChatPaper

OWSM v3.1: Modelli vocali open di tipo Whisper migliori e più veloci basati su E-Branchformer

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

January 30, 2024
Autori: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI

Abstract

Studi recenti hanno sostenuto l'uso di modelli di base completamente aperti per promuovere la trasparenza e la scienza aperta. Come primo passo, il modello di riconoscimento vocale Open Whisper-style Speech Model (OWSM) ha riprodotto il Whisper di OpenAI utilizzando dati pubblicamente disponibili e toolkit open-source. Con l'obiettivo di replicare Whisper, i precedenti modelli OWSM v1 fino a v3 si basavano ancora su Transformer, il che potrebbe portare a prestazioni inferiori rispetto ad altri encoder vocali all'avanguardia. In questo lavoro, miriamo a migliorare le prestazioni e l'efficienza di OWSM senza dati di addestramento aggiuntivi. Presentiamo i modelli OWSM v3.1 basati su E-Branchformer in due dimensioni, ovvero 100M e 1B. Il modello da 1B è il più grande modello vocale basato su E-Branchformer reso pubblicamente disponibile. Supera il precedente OWSM v3 nella maggior parte dei benchmark di valutazione, dimostrando al contempo una velocità di inferenza fino al 25% più rapida. Rilasciamo pubblicamente gli script di preparazione dei dati, i modelli pre-addestrati e i log di addestramento.
English
Recent studies have advocated for fully open foundation models to promote transparency and open science. As an initial step, the Open Whisper-style Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data and open-source toolkits. With the aim of reproducing Whisper, the previous OWSM v1 through v3 models were still based on Transformer, which might lead to inferior performance compared to other state-of-the-art speech encoders. In this work, we aim to improve the performance and efficiency of OWSM without extra training data. We present E-Branchformer based OWSM v3.1 models at two scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based speech model that has been made publicly available. It outperforms the previous OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to 25% faster inference speed. We publicly release the data preparation scripts, pre-trained models and training logs.
PDF141December 15, 2024