OWSM v3.1: Modelos de habla estilo Whisper abiertos mejores y más rápidos basados en E-Branchformer
OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer
January 30, 2024
Autores: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI
Resumen
Estudios recientes han abogado por modelos base completamente abiertos para promover la transparencia y la ciencia abierta. Como un primer paso, el Modelo de Habla al Estilo Whisper Abierto (OWSM, por sus siglas en inglés) reprodujo el Whisper de OpenAI utilizando datos disponibles públicamente y herramientas de código abierto. Con el objetivo de reproducir Whisper, los modelos anteriores OWSM v1 a v3 aún se basaban en Transformer, lo que podría resultar en un rendimiento inferior en comparación con otros codificadores de habla de última generación. En este trabajo, buscamos mejorar el rendimiento y la eficiencia de OWSM sin utilizar datos de entrenamiento adicionales. Presentamos los modelos OWSM v3.1 basados en E-Branchformer en dos escalas, es decir, 100M y 1B. El modelo de 1B es el modelo de habla basado en E-Branchformer más grande que se ha puesto a disposición del público. Supera al anterior OWSM v3 en la gran mayoría de los puntos de referencia de evaluación, mientras demuestra una velocidad de inferencia hasta un 25% más rápida. Publicamos los scripts de preparación de datos, los modelos preentrenados y los registros de entrenamiento.
English
Recent studies have advocated for fully open foundation models to promote
transparency and open science. As an initial step, the Open Whisper-style
Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data
and open-source toolkits. With the aim of reproducing Whisper, the previous
OWSM v1 through v3 models were still based on Transformer, which might lead to
inferior performance compared to other state-of-the-art speech encoders. In
this work, we aim to improve the performance and efficiency of OWSM without
extra training data. We present E-Branchformer based OWSM v3.1 models at two
scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based
speech model that has been made publicly available. It outperforms the previous
OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to
25% faster inference speed. We publicly release the data preparation scripts,
pre-trained models and training logs.