Naar robuuste spraakrepresentatieleer voor duizenden talen

Samenvatting

Zelfgesuperviseerd leren (SSL) heeft spraaktechnologieën geholpen om zich uit te breiden naar meer talen door de behoefte aan gelabelde data te verminderen. Modellen zijn echter nog ver verwijderd van het ondersteunen van de meer dan 7000 talen wereldwijd. Wij stellen XEUS voor, een Cross-lingual Encoder for Universal Speech, getraind op meer dan 1 miljoen uur aan data uit 4057 talen, waardoor de taaldekking van SSL-modellen verviervoudigd wordt. We combineren 1 miljoen uur spraak uit bestaande publiek toegankelijke corpora met een nieuw gecreëerd corpus van meer dan 7400 uur uit 4057 talen, dat publiekelijk beschikbaar zal worden gemaakt. Om de diverse omstandigheden van meertalige spraakdata te hanteren, verrijken we de typische SSL-methode van gemaskeerde voorspelling met een nieuw dereverberatie-doel, wat de robuustheid vergroot. We evalueren XEUS op verschillende benchmarks en laten zien dat het consistent beter presteert of vergelijkbare resultaten behaalt als state-of-the-art (SOTA) SSL-modellen voor een verscheidenheid aan taken. XEUS vestigt een nieuwe SOTA op de ML-SUPERB benchmark: het overtreft MMS 1B en w2v-BERT 2.0 v2 met respectievelijk 0,8% en 4,4%, ondanks het hebben van minder parameters of pre-trainingsdata. Checkpoints, code en data zijn te vinden op https://www.wavlab.org/activities/2024/xeus/.

English

Self-supervised learning (SSL) has helped extend speech technologies to more languages by reducing the need for labeled data. However, models are still far from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual Encoder for Universal Speech, trained on over 1 million hours of data across 4057 languages, extending the language coverage of SSL models 4-fold. We combine 1 million hours of speech from existing publicly accessible corpora with a newly created corpus of 7400+ hours from 4057 languages, which will be publicly released. To handle the diverse conditions of multilingual speech data, we augment the typical SSL masked prediction approach with a novel dereverberation objective, increasing robustness. We evaluate XEUS on several benchmarks, and show that it consistently outperforms or achieves comparable results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT 2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or pre-training data. Checkpoints, code, and data are found in https://www.wavlab.org/activities/2024/xeus/.

Naar robuuste spraakrepresentatieleer voor duizenden talen

Towards Robust Speech Representation Learning for Thousands of Languages

Samenvatting

Support