ChatPaper.aiChatPaper

OWSM v3.1: Bessere und schnellere Open Whisper-Style-Sprachmodelle basierend auf E-Branchformer

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

January 30, 2024
Autoren: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI

Zusammenfassung

Aktuelle Studien haben sich für vollständig offene Basismodelle ausgesprochen, um Transparenz und offene Wissenschaft zu fördern. Als erster Schritt hat das Open Whisper-style Speech Model (OWSM) OpenAIs Whisper unter Verwendung öffentlich verfügbarer Daten und Open-Source-Toolkits reproduziert. Mit dem Ziel, Whisper nachzubilden, basierten die bisherigen OWSM-Modelle v1 bis v3 weiterhin auf dem Transformer, was zu einer möglicherweise geringeren Leistung im Vergleich zu anderen modernen Sprachkodierern führen könnte. In dieser Arbeit streben wir an, die Leistung und Effizienz von OWSM ohne zusätzliche Trainingsdaten zu verbessern. Wir präsentieren E-Branchformer-basierte OWSM v3.1-Modelle in zwei Größenordnungen, nämlich 100M und 1B. Das 1B-Modell ist das größte E-Branchformer-basierte Sprachmodell, das öffentlich verfügbar gemacht wurde. Es übertrifft das vorherige OWSM v3 in der überwiegenden Mehrheit der Evaluierungsbenchmarks und zeigt dabei eine bis zu 25 % schnellere Inferenzgeschwindigkeit. Wir veröffentlichen die Datenvorbereitungsskripte, vortrainierten Modelle und Trainingsprotokolle öffentlich.
English
Recent studies have advocated for fully open foundation models to promote transparency and open science. As an initial step, the Open Whisper-style Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data and open-source toolkits. With the aim of reproducing Whisper, the previous OWSM v1 through v3 models were still based on Transformer, which might lead to inferior performance compared to other state-of-the-art speech encoders. In this work, we aim to improve the performance and efficiency of OWSM without extra training data. We present E-Branchformer based OWSM v3.1 models at two scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based speech model that has been made publicly available. It outperforms the previous OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to 25% faster inference speed. We publicly release the data preparation scripts, pre-trained models and training logs.
PDF141December 15, 2024