Naar robuuste spraakrepresentatieleer voor duizenden talen
Towards Robust Speech Representation Learning for Thousands of Languages
June 30, 2024
Auteurs: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe
cs.AI
Samenvatting
Zelfgesuperviseerd leren (SSL) heeft spraaktechnologieën geholpen om zich uit te breiden naar meer talen door de behoefte aan gelabelde data te verminderen. Modellen zijn echter nog ver verwijderd van het ondersteunen van de meer dan 7000 talen wereldwijd. Wij stellen XEUS voor, een Cross-lingual Encoder for Universal Speech, getraind op meer dan 1 miljoen uur aan data uit 4057 talen, waardoor de taaldekking van SSL-modellen verviervoudigd wordt. We combineren 1 miljoen uur spraak uit bestaande publiek toegankelijke corpora met een nieuw gecreëerd corpus van meer dan 7400 uur uit 4057 talen, dat publiekelijk beschikbaar zal worden gemaakt. Om de diverse omstandigheden van meertalige spraakdata te hanteren, verrijken we de typische SSL-methode van gemaskeerde voorspelling met een nieuw dereverberatie-doel, wat de robuustheid vergroot. We evalueren XEUS op verschillende benchmarks en laten zien dat het consistent beter presteert of vergelijkbare resultaten behaalt als state-of-the-art (SOTA) SSL-modellen voor een verscheidenheid aan taken. XEUS vestigt een nieuwe SOTA op de ML-SUPERB benchmark: het overtreft MMS 1B en w2v-BERT 2.0 v2 met respectievelijk 0,8% en 4,4%, ondanks het hebben van minder parameters of pre-trainingsdata. Checkpoints, code en data zijn te vinden op https://www.wavlab.org/activities/2024/xeus/.
English
Self-supervised learning (SSL) has helped extend speech technologies to more
languages by reducing the need for labeled data. However, models are still far
from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual
Encoder for Universal Speech, trained on over 1 million hours of data across
4057 languages, extending the language coverage of SSL models 4-fold. We
combine 1 million hours of speech from existing publicly accessible corpora
with a newly created corpus of 7400+ hours from 4057 languages, which will be
publicly released. To handle the diverse conditions of multilingual speech
data, we augment the typical SSL masked prediction approach with a novel
dereverberation objective, increasing robustness. We evaluate XEUS on several
benchmarks, and show that it consistently outperforms or achieves comparable
results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS
sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT
2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or
pre-training data. Checkpoints, code, and data are found in
https://www.wavlab.org/activities/2024/xeus/.