수천 개의 언어를 위한 강건한 음성 표현 학습을 향하여
Towards Robust Speech Representation Learning for Thousands of Languages
June 30, 2024
저자: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
cs.AI
초록
자기 지도 학습(Self-Supervised Learning, SSL)은 레이블이 지정된 데이터의 필요성을 줄여 음성 기술을 더 많은 언어로 확장하는 데 기여해 왔습니다. 그러나 모델은 여전히 전 세계 7,000개 이상의 언어를 지원하기에는 한참 부족한 상황입니다. 우리는 4,057개 언어에 걸쳐 100만 시간 이상의 데이터로 학습된 범용 음성을 위한 교차 언어 인코더 XEUS(Cross-lingual Encoder for Universal Speech)를 제안하며, 이를 통해 SSL 모델의 언어 커버리지를 4배 확장했습니다. 우리는 기존에 공개적으로 접근 가능한 코퍼스에서 수집한 100만 시간의 음성 데이터와 4,057개 언어로 구성된 7,400시간 이상의 새로 생성된 코퍼스를 결합했으며, 이 데이터는 공개될 예정입니다. 다국어 음성 데이터의 다양한 조건을 처리하기 위해, 우리는 전형적인 SSL 마스크 예측 접근법에 새로운 디리버베레이션(dereverberation) 목표를 추가하여 견고성을 높였습니다. 우리는 XEUS를 여러 벤치마크에서 평가했으며, 다양한 작업에서 최신 기술(State-of-the-Art, SOTA) SSL 모델과 비교해 일관되게 우수하거나 비슷한 성능을 보임을 입증했습니다. XEUS는 ML-SUPERB 벤치마크에서 새로운 SOTA를 달성했습니다: 파라미터 수나 사전 학습 데이터가 더 적음에도 불구하고, MMS 1B와 w2v-BERT 2.0 v2를 각각 0.8%와 4.4% 앞섰습니다. 체크포인트, 코드, 데이터는 https://www.wavlab.org/activities/2024/xeus/에서 확인할 수 있습니다.
English
Self-supervised learning (SSL) has helped extend speech technologies to more
languages by reducing the need for labeled data. However, models are still far
from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual
Encoder for Universal Speech, trained on over 1 million hours of data across
4057 languages, extending the language coverage of SSL models 4-fold. We
combine 1 million hours of speech from existing publicly accessible corpora
with a newly created corpus of 7400+ hours from 4057 languages, which will be
publicly released. To handle the diverse conditions of multilingual speech
data, we augment the typical SSL masked prediction approach with a novel
dereverberation objective, increasing robustness. We evaluate XEUS on several
benchmarks, and show that it consistently outperforms or achieves comparable
results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS
sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT
2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or
pre-training data. Checkpoints, code, and data are found in
https://www.wavlab.org/activities/2024/xeus/.Summary
AI-Generated Summary