OWSM v3.1: Modelos de Fala no Estilo Whisper Melhores e Mais Rápidos Baseados em E-Branchformer
OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer
January 30, 2024
Autores: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI
Resumo
Estudos recentes têm defendido modelos de base totalmente abertos para promover transparência e ciência aberta. Como um passo inicial, o Modelo de Fala no Estilo Whisper Aberto (OWSM) reproduziu o Whisper da OpenAI utilizando dados publicamente disponíveis e kits de ferramentas de código aberto. Com o objetivo de reproduzir o Whisper, os modelos anteriores OWSM v1 a v3 ainda eram baseados no Transformer, o que poderia resultar em desempenho inferior em comparação com outros codificadores de fala state-of-the-art. Neste trabalho, buscamos melhorar o desempenho e a eficiência do OWSM sem dados de treinamento adicionais. Apresentamos os modelos OWSM v3.1 baseados em E-Branchformer em duas escalas, ou seja, 100M e 1B. O modelo de 1B é o maior modelo de fala baseado em E-Branchformer que foi disponibilizado publicamente. Ele supera o OWSM v3 anterior na grande maioria dos benchmarks de avaliação, enquanto demonstra uma velocidade de inferência até 25% mais rápida. Disponibilizamos publicamente os scripts de preparação de dados, modelos pré-treinados e logs de treinamento.
English
Recent studies have advocated for fully open foundation models to promote
transparency and open science. As an initial step, the Open Whisper-style
Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data
and open-source toolkits. With the aim of reproducing Whisper, the previous
OWSM v1 through v3 models were still based on Transformer, which might lead to
inferior performance compared to other state-of-the-art speech encoders. In
this work, we aim to improve the performance and efficiency of OWSM without
extra training data. We present E-Branchformer based OWSM v3.1 models at two
scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based
speech model that has been made publicly available. It outperforms the previous
OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to
25% faster inference speed. We publicly release the data preparation scripts,
pre-trained models and training logs.