OWSM v4: データのスケーリングとクリーニングによるOpen Whisperスタイル音声モデルの改善
OWSM v4: Improving Open Whisper-Style Speech Models via Data Scaling and Cleaning
May 31, 2025
著者: Yifan Peng, Shakeel Muhammad, Yui Sudo, William Chen, Jinchuan Tian, Chyi-Jiunn Lin, Shinji Watanabe
cs.AI
要旨
Open Whisper-style Speech Models (OWSM)プロジェクトは、学術規模のリソースを用いて一連の完全オープンな音声基盤モデルを開発してきましたが、その学習データは依然として不十分です。本研究では、Creative Commonsライセンスを持つ大規模なウェブクロールデータセットであるYODASを統合することで、OWSMを強化します。しかし、YODASの取り込みは容易ではありません。その「野生」の性質により、誤った言語ラベルや音声-テキストの不一致といった課題が生じます。これに対処するため、公開ツールキットを用いたスケーラブルなデータクリーニングパイプラインを開発し、75言語にわたる166,000時間の音声データセットを作成しました。この精選されたデータセットと既存のOWSMデータを用いて学習した新しいOWSM v4モデルシリーズは、多言語ベンチマークにおいて以前のバージョンを大幅に上回る性能を示します。さらに、WhisperやMMSといった最先端の産業用モデルと比較しても、複数のシナリオで同等またはそれ以上の性能を発揮します。クリーニングされたYODASデータ、事前学習済みモデル、および関連するすべてのスクリプトを、ESPnetツールキットを通じて公開する予定です。
English
The Open Whisper-style Speech Models (OWSM) project has developed a series of
fully open speech foundation models using academic-scale resources, but their
training data remains insufficient. This work enhances OWSM by integrating
YODAS, a large-scale web-crawled dataset with a Creative Commons license.
However, incorporating YODAS is nontrivial due to its wild nature, which
introduces challenges such as incorrect language labels and audio-text
misalignments. To address this, we develop a scalable data-cleaning pipeline
using public toolkits, yielding a dataset with 166,000 hours of speech across
75 languages. Our new series of OWSM v4 models, trained on this curated dataset
alongside existing OWSM data, significantly outperform previous versions on
multilingual benchmarks. Our models even match or surpass frontier industrial
models like Whisper and MMS in multiple scenarios. We will publicly release the
cleaned YODAS data, pre-trained models, and all associated scripts via the
ESPnet toolkit.