OWSM v4: Verbesserung von Open Whisper-Style-Sprachmodellen durch Daten-Skalierung und -Bereinigung
OWSM v4: Improving Open Whisper-Style Speech Models via Data Scaling and Cleaning
May 31, 2025
Autoren: Yifan Peng, Shakeel Muhammad, Yui Sudo, William Chen, Jinchuan Tian, Chyi-Jiunn Lin, Shinji Watanabe
cs.AI
Zusammenfassung
Das Open Whisper-style Speech Models (OWSM)-Projekt hat eine Reihe von vollständig offenen Sprach-Foundation-Modellen mit akademischen Ressourcen entwickelt, doch die Trainingsdaten bleiben unzureichend. Diese Arbeit verbessert OWSM durch die Integration von YODAS, einem groß angelegten, webgecrawlten Datensatz mit einer Creative-Commons-Lizenz. Die Einbindung von YODAS ist jedoch aufgrund seines unstrukturierten Charakters nicht trivial und führt zu Herausforderungen wie falschen Sprachlabels und Audio-Text-Fehlausrichtungen. Um dies zu bewältigen, entwickeln wir eine skalierbare Datenbereinigungs-Pipeline mit öffentlichen Toolkits, die einen Datensatz mit 166.000 Stunden Sprachdaten in 75 Sprachen liefert. Unsere neue Reihe von OWSM v4-Modellen, die auf diesem kuratierten Datensatz zusammen mit den bestehenden OWSM-Daten trainiert wurden, übertreffen frühere Versionen auf multilingualen Benchmarks deutlich. Unsere Modelle erreichen oder übertreffen sogar führende industrielle Modelle wie Whisper und MMS in mehreren Szenarien. Wir werden die bereinigten YODAS-Daten, vortrainierten Modelle und alle zugehörigen Skripte über das ESPnet-Toolkit öffentlich zugänglich machen.
English
The Open Whisper-style Speech Models (OWSM) project has developed a series of
fully open speech foundation models using academic-scale resources, but their
training data remains insufficient. This work enhances OWSM by integrating
YODAS, a large-scale web-crawled dataset with a Creative Commons license.
However, incorporating YODAS is nontrivial due to its wild nature, which
introduces challenges such as incorrect language labels and audio-text
misalignments. To address this, we develop a scalable data-cleaning pipeline
using public toolkits, yielding a dataset with 166,000 hours of speech across
75 languages. Our new series of OWSM v4 models, trained on this curated dataset
alongside existing OWSM data, significantly outperform previous versions on
multilingual benchmarks. Our models even match or surpass frontier industrial
models like Whisper and MMS in multiple scenarios. We will publicly release the
cleaned YODAS data, pre-trained models, and all associated scripts via the
ESPnet toolkit.