ChatPaper.aiChatPaper

OWSM v3.1: Modelos de Fala no Estilo Whisper Melhores e Mais Rápidos Baseados em E-Branchformer

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

January 30, 2024
Autores: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI

Resumo

Estudos recentes têm defendido modelos de base totalmente abertos para promover transparência e ciência aberta. Como um passo inicial, o Modelo de Fala no Estilo Whisper Aberto (OWSM) reproduziu o Whisper da OpenAI utilizando dados publicamente disponíveis e kits de ferramentas de código aberto. Com o objetivo de reproduzir o Whisper, os modelos anteriores OWSM v1 a v3 ainda eram baseados no Transformer, o que poderia resultar em desempenho inferior em comparação com outros codificadores de fala state-of-the-art. Neste trabalho, buscamos melhorar o desempenho e a eficiência do OWSM sem dados de treinamento adicionais. Apresentamos os modelos OWSM v3.1 baseados em E-Branchformer em duas escalas, ou seja, 100M e 1B. O modelo de 1B é o maior modelo de fala baseado em E-Branchformer que foi disponibilizado publicamente. Ele supera o OWSM v3 anterior na grande maioria dos benchmarks de avaliação, enquanto demonstra uma velocidade de inferência até 25% mais rápida. Disponibilizamos publicamente os scripts de preparação de dados, modelos pré-treinados e logs de treinamento.
English
Recent studies have advocated for fully open foundation models to promote transparency and open science. As an initial step, the Open Whisper-style Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data and open-source toolkits. With the aim of reproducing Whisper, the previous OWSM v1 through v3 models were still based on Transformer, which might lead to inferior performance compared to other state-of-the-art speech encoders. In this work, we aim to improve the performance and efficiency of OWSM without extra training data. We present E-Branchformer based OWSM v3.1 models at two scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based speech model that has been made publicly available. It outperforms the previous OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to 25% faster inference speed. We publicly release the data preparation scripts, pre-trained models and training logs.
PDF141December 15, 2024