ChatPaper.aiChatPaper

OWSM v3.1 : Des modèles de parole de style Whisper ouverts plus performants et rapides basés sur E-Branchformer

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

January 30, 2024
Auteurs: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI

Résumé

Les études récentes ont plaidé en faveur de modèles de base entièrement ouverts pour promouvoir la transparence et la science ouverte. Comme première étape, le modèle de parole de style Whisper ouvert (OWSM) a reproduit le Whisper d'OpenAI en utilisant des données publiquement disponibles et des boîtes à outils open-source. Dans le but de reproduire Whisper, les précédents modèles OWSM v1 à v3 étaient toujours basés sur le Transformer, ce qui pourrait entraîner des performances inférieures par rapport à d'autres encodeurs de parole de pointe. Dans ce travail, nous visons à améliorer les performances et l'efficacité de l'OWSM sans données d'entraînement supplémentaires. Nous présentons les modèles OWSM v3.1 basés sur E-Branchformer à deux échelles, c'est-à-dire 100M et 1B. Le modèle 1B est le plus grand modèle de parole basé sur E-Branchformer qui a été rendu public. Il surpasse le précédent OWSM v3 dans la grande majorité des benchmarks d'évaluation, tout en démontrant une vitesse d'inférence jusqu'à 25% plus rapide. Nous rendons publics les scripts de préparation des données, les modèles pré-entraînés et les journaux d'entraînement.
English
Recent studies have advocated for fully open foundation models to promote transparency and open science. As an initial step, the Open Whisper-style Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data and open-source toolkits. With the aim of reproducing Whisper, the previous OWSM v1 through v3 models were still based on Transformer, which might lead to inferior performance compared to other state-of-the-art speech encoders. In this work, we aim to improve the performance and efficiency of OWSM without extra training data. We present E-Branchformer based OWSM v3.1 models at two scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based speech model that has been made publicly available. It outperforms the previous OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to 25% faster inference speed. We publicly release the data preparation scripts, pre-trained models and training logs.
PDF141December 15, 2024