OWSM v3.1: Betere en snellere open Whisper-stijl spraakmodellen gebaseerd op E-Branchformer
OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer
January 30, 2024
Auteurs: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI
Samenvatting
Recente studies hebben gepleit voor volledig open foundation-modellen om transparantie en open wetenschap te bevorderen. Als eerste stap heeft het Open Whisper-style Speech Model (OWSM) OpenAI's Whisper gereproduceerd met behulp van publiek beschikbare gegevens en open-source toolkits. Met het doel om Whisper te reproduceren, waren de vorige OWSM v1 tot en met v3 modellen nog steeds gebaseerd op Transformer, wat mogelijk leidt tot inferieure prestaties in vergelijking met andere state-of-the-art spraakencoders. In dit werk streven we ernaar om de prestaties en efficiëntie van OWSM te verbeteren zonder extra trainingsgegevens. We presenteren E-Branchformer-gebaseerde OWSM v3.1 modellen op twee schalen, namelijk 100M en 1B. Het 1B-model is het grootste E-Branchformer-gebaseerde spraakmodel dat publiekelijk beschikbaar is gemaakt. Het overtreft het vorige OWSM v3 in de overgrote meerderheid van de evaluatiebenchmarks, terwijl het tot 25% snellere inferentiesnelheid laat zien. We maken de gegevensvoorbereidingsscripts, vooraf getrainde modellen en trainingslogboeken publiekelijk beschikbaar.
English
Recent studies have advocated for fully open foundation models to promote
transparency and open science. As an initial step, the Open Whisper-style
Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data
and open-source toolkits. With the aim of reproducing Whisper, the previous
OWSM v1 through v3 models were still based on Transformer, which might lead to
inferior performance compared to other state-of-the-art speech encoders. In
this work, we aim to improve the performance and efficiency of OWSM without
extra training data. We present E-Branchformer based OWSM v3.1 models at two
scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based
speech model that has been made publicly available. It outperforms the previous
OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to
25% faster inference speed. We publicly release the data preparation scripts,
pre-trained models and training logs.