OWSM v4: 데이터 스케일링 및 정제를 통해 개방형 Whisper 스타일 음성 모델 개선
OWSM v4: Improving Open Whisper-Style Speech Models via Data Scaling and Cleaning
May 31, 2025
저자: Yifan Peng, Shakeel Muhammad, Yui Sudo, William Chen, Jinchuan Tian, Chyi-Jiunn Lin, Shinji Watanabe
cs.AI
초록
Open Whisper 스타일 음성 모델(OWSM) 프로젝트는 학술적 규모의 자원을 사용하여 완전히 오픈된 음성 기반 모델 시리즈를 개발했지만, 여전히 훈련 데이터가 부족한 상황입니다. 본 연구는 Creative Commons 라이선스를 가진 대규모 웹 크롤링 데이터셋인 YODAS를 통합하여 OWSM을 개선합니다. 그러나 YODAS를 통합하는 것은 간단하지 않은데, 이는 잘못된 언어 라벨링과 오디오-텍스트 불일치와 같은 문제를 야기하는 데이터셋의 비정형적 특성 때문입니다. 이를 해결하기 위해, 우리는 공개 툴킷을 사용하여 확장 가능한 데이터 정제 파이프라인을 개발하였고, 이를 통해 75개 언어에 걸쳐 166,000시간의 음성 데이터셋을 구축했습니다. 이 정제된 데이터셋과 기존 OWSM 데이터를 함께 사용하여 훈련한 새로운 OWSM v4 모델 시리즈는 다국어 벤치마크에서 이전 버전을 크게 능가하는 성능을 보였습니다. 우리의 모델은 여러 시나리오에서 Whisper 및 MMS와 같은 최첨단 산업용 모델과도 견줄 만하거나 이를 능가하는 성능을 보입니다. 우리는 정제된 YODAS 데이터, 사전 훈련된 모델, 그리고 관련된 모든 스크립트를 ESPnet 툴킷을 통해 공개할 예정입니다.
English
The Open Whisper-style Speech Models (OWSM) project has developed a series of
fully open speech foundation models using academic-scale resources, but their
training data remains insufficient. This work enhances OWSM by integrating
YODAS, a large-scale web-crawled dataset with a Creative Commons license.
However, incorporating YODAS is nontrivial due to its wild nature, which
introduces challenges such as incorrect language labels and audio-text
misalignments. To address this, we develop a scalable data-cleaning pipeline
using public toolkits, yielding a dataset with 166,000 hours of speech across
75 languages. Our new series of OWSM v4 models, trained on this curated dataset
alongside existing OWSM data, significantly outperform previous versions on
multilingual benchmarks. Our models even match or surpass frontier industrial
models like Whisper and MMS in multiple scenarios. We will publicly release the
cleaned YODAS data, pre-trained models, and all associated scripts via the
ESPnet toolkit.