ChatPaper.aiChatPaper

OWSM v3.1: Улучшенные и более быстрые открытые речевые модели в стиле Whisper на основе E-Branchformer

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

January 30, 2024
Авторы: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
cs.AI

Аннотация

Недавние исследования выступают за полностью открытые базовые модели для повышения прозрачности и развития открытой науки. В качестве первого шага, модель Open Whisper-style Speech Model (OWSM) воспроизвела Whisper от OpenAI, используя общедоступные данные и инструменты с открытым исходным кодом. С целью воспроизведения Whisper, предыдущие версии OWSM v1–v3 были основаны на архитектуре Transformer, что могло приводить к ухудшению производительности по сравнению с другими современными кодировщиками речи. В данной работе мы стремимся улучшить производительность и эффективность OWSM без использования дополнительных обучающих данных. Мы представляем модели OWSM v3.1 на основе E-Branchformer в двух масштабах: 100M и 1B. Модель с 1B параметрами является крупнейшей моделью речи на основе E-Branchformer, которая была опубликована в открытом доступе. Она превосходит предыдущую версию OWSM v3 на большинстве оценочных тестов, демонстрируя при этом до 25% более высокую скорость вывода. Мы публикуем скрипты подготовки данных, предобученные модели и журналы обучения.
English
Recent studies have advocated for fully open foundation models to promote transparency and open science. As an initial step, the Open Whisper-style Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data and open-source toolkits. With the aim of reproducing Whisper, the previous OWSM v1 through v3 models were still based on Transformer, which might lead to inferior performance compared to other state-of-the-art speech encoders. In this work, we aim to improve the performance and efficiency of OWSM without extra training data. We present E-Branchformer based OWSM v3.1 models at two scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based speech model that has been made publicly available. It outperforms the previous OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to 25% faster inference speed. We publicly release the data preparation scripts, pre-trained models and training logs.
PDF141December 15, 2024