OWSM v3.1: Modelli vocali open di tipo Whisper migliori e più veloci basati su E-Branchformer

Abstract

Studi recenti hanno sostenuto l'uso di modelli di base completamente aperti per promuovere la trasparenza e la scienza aperta. Come primo passo, il modello di riconoscimento vocale Open Whisper-style Speech Model (OWSM) ha riprodotto il Whisper di OpenAI utilizzando dati pubblicamente disponibili e toolkit open-source. Con l'obiettivo di replicare Whisper, i precedenti modelli OWSM v1 fino a v3 si basavano ancora su Transformer, il che potrebbe portare a prestazioni inferiori rispetto ad altri encoder vocali all'avanguardia. In questo lavoro, miriamo a migliorare le prestazioni e l'efficienza di OWSM senza dati di addestramento aggiuntivi. Presentiamo i modelli OWSM v3.1 basati su E-Branchformer in due dimensioni, ovvero 100M e 1B. Il modello da 1B è il più grande modello vocale basato su E-Branchformer reso pubblicamente disponibile. Supera il precedente OWSM v3 nella maggior parte dei benchmark di valutazione, dimostrando al contempo una velocità di inferenza fino al 25% più rapida. Rilasciamo pubblicamente gli script di preparazione dei dati, i modelli pre-addestrati e i log di addestramento.

English

Recent studies have advocated for fully open foundation models to promote transparency and open science. As an initial step, the Open Whisper-style Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data and open-source toolkits. With the aim of reproducing Whisper, the previous OWSM v1 through v3 models were still based on Transformer, which might lead to inferior performance compared to other state-of-the-art speech encoders. In this work, we aim to improve the performance and efficiency of OWSM without extra training data. We present E-Branchformer based OWSM v3.1 models at two scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based speech model that has been made publicly available. It outperforms the previous OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to 25% faster inference speed. We publicly release the data preparation scripts, pre-trained models and training logs.

OWSM v3.1: Modelli vocali open di tipo Whisper migliori e più veloci basati su E-Branchformer

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

Abstract

Support