OWSM v3.1: Modelos de habla estilo Whisper abiertos mejores y más rápidos basados en E-Branchformer

Resumen

Estudios recientes han abogado por modelos base completamente abiertos para promover la transparencia y la ciencia abierta. Como un primer paso, el Modelo de Habla al Estilo Whisper Abierto (OWSM, por sus siglas en inglés) reprodujo el Whisper de OpenAI utilizando datos disponibles públicamente y herramientas de código abierto. Con el objetivo de reproducir Whisper, los modelos anteriores OWSM v1 a v3 aún se basaban en Transformer, lo que podría resultar en un rendimiento inferior en comparación con otros codificadores de habla de última generación. En este trabajo, buscamos mejorar el rendimiento y la eficiencia de OWSM sin utilizar datos de entrenamiento adicionales. Presentamos los modelos OWSM v3.1 basados en E-Branchformer en dos escalas, es decir, 100M y 1B. El modelo de 1B es el modelo de habla basado en E-Branchformer más grande que se ha puesto a disposición del público. Supera al anterior OWSM v3 en la gran mayoría de los puntos de referencia de evaluación, mientras demuestra una velocidad de inferencia hasta un 25% más rápida. Publicamos los scripts de preparación de datos, los modelos preentrenados y los registros de entrenamiento.

English

Recent studies have advocated for fully open foundation models to promote transparency and open science. As an initial step, the Open Whisper-style Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data and open-source toolkits. With the aim of reproducing Whisper, the previous OWSM v1 through v3 models were still based on Transformer, which might lead to inferior performance compared to other state-of-the-art speech encoders. In this work, we aim to improve the performance and efficiency of OWSM without extra training data. We present E-Branchformer based OWSM v3.1 models at two scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based speech model that has been made publicly available. It outperforms the previous OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to 25% faster inference speed. We publicly release the data preparation scripts, pre-trained models and training logs.

OWSM v3.1: Modelos de habla estilo Whisper abiertos mejores y más rápidos basados en E-Branchformer

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

Resumen

Support